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لايسمح بإعادة إصدار هذا الكتابء أو نقله في أي شكل أو وسيلة» 
سواء أكان إلكترونية أم يدوية أم ميكانيكية» بها في ذلك جميع أنواع تصوير المستندات بالنسخ» أو 
التسجيل أو التخزين» أو أنظمة الاسترجاع» دون إذن خطي من المركز بذلك. 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 


هذه الطبعة إهداء من SAM‏ 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
o EE NN‏ ^ 


هذا المشروع 


مشروع تأليف سلسلة كتب في Jle‏ (حوسبة العربية) بهدف إلى بناء تراكم معرفي 
في جال حيوي مهم» هو جال (حوسبة العربية) . ويعد هذا الكتاب واحدا من سلسلة 
كتب صدرت ني المركز. 

يقع هذا المشروع ضمن سلسلة (مباحث لغوية) التي يشرف المركز على اختيار 
عنواناتهاء وتكليف المحررين والمؤلفين» ومتابعة التأليف حتى إصدار الكتب. وهي 
سلسلة يجتهد المركز أن تكون سداداً لحاجات بحثية وعلمية تحتاج إلى تنبيه الباحثين 


عليهاء أو تكثيف البحث فيها. 
ويعدٌ هذا الكتاب واحداً من كتب ثلاثة مترابطة في مشروع علمي واحد متخصص 
في (الذكاء الاصطناعي) : 


.١‏ العربية والذكاء الاصطناعى. 
؟. تطبيقات الذكاء الاصطناعى في خدمة اللغة العربية. 
.Y‏ خوارزميات الذكاء الاصطناعي في تحليل النص العربي. 
د.عبدالله بن يحبى الفيفي 


هذه الطبعة إهداء من SAM‏ 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OOO‏ 


كلمة المركز 


يعمل المركز في جال البحث العلمي ونشر الكتب مستهدفاً التركيز على المجالات 
I s I tou‏ علا tS‏ اجك Ad sei‏ 
الباحثين والجهات الأكاديمية إلى أهمية استثغارها بمختلف وجوه الاستشار» وذلك مثل 
Jie‏ (التخطيط اللغوي) و (العربية في العالم) و(الأدلة والمعلومات) و (تعليم العربية 
لأبناتها أو لغير الناطقين Ce‏ إلى غير ذلك من المجالات» وإن من أهم مجالات البحث 
المستقبلية في اللغة العربية مجال (العربية والحوسبة » والذكاء الاصطناعي) حيث إن 
اللغات الحية مرهونة حياتها مستقبلا بمدى تجاوبها مع التطورات التقنية والعالم 
الافتراضي» وكثافة المحتوى الإلكتروني المكتوب» وهو ما يشكل تحديا حقيقيا أمام 
اللغات غير المنتجة للمعرفة أو للتقنية. 

وقد عمل المركز على تسليط الضوء على هذا المجال التخصصى؛ مستعينا بالكفاءات 
القادرة من المهتمين بالتخصص البيني (بين اللغة boosts‏ جهودهم» Dalay‏ 
إلى نشرهاء وتعميم مبادئهاء راغباً أن يكون هذا المسار العلمي مقررا في الجامعات في 
كلية العربية والحاسوب» ومجالا بحثيا يقصده الباحثون الأكديميون» والجهات البحثية 


ال 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
n—UuUÓ L|‏ 


وقد أصدر المركز سابقا ستة عشر كتاباً ختصا في (حوسبة العربية) وفي الإفادة من 
«المدونات اللغوية) في الأبحاث العربية» ويحتفل بإصدار سبعة كتب جديدة مختصة 
في (حوسبة العربية والذكاء الاصطناعي)» ويقدمها للقارئ العربي» وللجهات 
الأكاديمية؛ للإفادة منها واعتماد ما تراه منها مناسباً لتعليمه والبناء عليه» وهذه الكتب 
السبعة هي: (العربية والذكاء الاصطناعي» تطبيقات الذكاء الاصطناعي في خدمة اللغة 
العربية» خوارزميات الذكاء الاصطناعي في تحليل النص العربي c‏ مقدمة في حوسبة 
ا ار الوارة اللغرية E‏ للتصوصى DUREE‏ 
أساسية في المعالجة الآلية للغة العربية). 

ويشكر المركز السادة مؤلفي الكتب» ومحرريهاء لما تفضلوا به من عمل علمي 
رصين» وأدعو الباحثين والمؤلفين إلى التواصل مع المركز لاستكمال المسيرة» وتفتيق 


وفق الله الجهود وسدد الرؤى. 


الأمين العام 
أ. د. محمود إسماعيل صالح 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
o EN‏ ^ 


تطبيقات الذكاء الاصطناعى 
2 خدمة اللغة العربية 


مقدمة V yall‏ 
الحمد لله. علم الإنسان مالم يعلم: قلماء وبياناء وقرآناء وخلقا. والصلاة والسلام 
على النبي الأمي الذي أرسل للعالمين سراجا منيرا. وبعد» فالذكاء الاصطناعي يتيح 
;$ بعض مهام البشر للآلات» وفي بؤرته: تأليل معالجة اللغات. واللغة العربية 
فذة» لما فلسفات عظمى à‏ رسمهاء وفي لفظهاء d»‏ صرفها وإعراہا وبلاغتها. 
لذلك تظافرت أبحاث اللغويين والحاسوبيين -عرباً وعج)ً- وتسابقت للغوص عن 
مكنوناتها وحِكّمهاء ولكنهم -للأسف- قصروا عن الانتهاء بجهودهم إلى تطبيقات 
عملية تصل ليد المستخدم العربي -أفرادا أو مؤسسات-. إذ كانت أكثر الجهود متفرقة» 


والأهداف متشعثة. 


-١‏ د.يوسف سام العريان باحث في الحوسبة العربية» حصل على درجة الدكتوراه في علوم وهندسة الحاسب JYI‏ عن 
رسالته في «تحليل وتصنيع الكتابة العربية» من جامعة الملك فهد للبترول والمعادن» وعلى درجة الماجستير في هندسة 
الحاسب الآلي عن رسالته في «إنتاج معجم لعملية التعرف الآلي على الكتابة العربية» من جامعة العلوم والتكنولوجيا 
الأردنية. حرر كتاب «الحرف العربي والتقنية» وله العديد من الأبحاث وبراءات الاختراع في المجال. عمل محاضرا 
في جامعة الملك فهد للبترول والمعادن أثناء دراسته» ثم أستاذا مساعدا في جامعة جازان» ثم oda‏ تعلم وتدريس في 
المدينة المنورة. حائز على عدة جوائز للتميز في التدريس الأكاديمي والبحث العلمي. 
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هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
n—UuUÓ L|‏ 


لذاء فقد ارتأينا ترتيب شيء من هذا النتاج الغزير وتركيزه في بوتقة واحدة» وجعلناها 
عربية كي A‏ منها الجميع: اللخوي» وا حاسوبي» وغيرهم. وبذلنا -جميعا- موسوعنا 
d‏ تعريب االضظلحات cole dl eg‏ وتقريبها tel‏ العري (مع lol sa]‏ 
بالإنجليزية ليشهل رجوع المهتم ها في مصادرها)ء وذلك بعد أن لمسنا -التقصير في 
التعريب الرصين ونشره» وغرابة وقع بعض الترجمات حتى على المختص. 

جاء الكتاب في خمسة أبواب» تناولت قراءة الكتابة العربية آلياء والاستماع لأحكام 
التلاوة القرآنية تلقائياء واستخراج الآراء والمشاعر من النصوص إلكترونيا. وقد 
وجدنا الباحثين قد أجمعوا -على اختلاف مشاربهم- على أهمية تقنية التعلم العميق 
وعلو كعبها؛ فجاء الباب الرابع ليشرح هذه التقنية. وناسب هذا كله ختم الكتاب 
بتطبيق لتوليد النصوص العربية الشعرية باستخدم تلكم التقنية. 

فبدأ الكتاب بالتعرف والتحليل» وانتهى بالإنشاء والتطبيق» كأنه يصعد بالقارئ 
من الأساس إلى ذروة السنام» نسأل الله أن ينفعنا -كاتبيه وقارئيه- به. ولعل المستقبل 
يسفر عن كتاب يبدأ حيث انتهى هذاء يتناول ما وصل إليه العلم في تقليد لغة الإنسان» 
بالخط الشبيه باليدوي» والنطق العربي الطبعي» وتحليل وإنشاءٍ وتلخيص لا نكاد نفرقه 
عن البشري. كا أرجو أن تكون الجهود المباركة -ولعل أهمها جهود مركز الملك عبد الله 
بن عبدالعزيز الدولي لخدمة اللغة العربية- سببا لاستخلاص التطبيقات العملية من 
الجهود العلمية» وجني ثمارها في الدارين» والله العلي على كل شيء قدير. 


وكتبه» 
د. يوسف سال العريان 


ذو القعدة ١٠٤٤١‏ ه 


d 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OO‏ 


عناوين أبواب الكتاب 


الباب الأول: القراءة الآلية لكتابة اليد العربية 
د.يوسف سام العريان و د.عرفان أحمد ١‏ 
الباب الثاني: التعرف JI‏ على الكلام العربي المنطوق وتطبيقاته في القرآن الكريم 


د. أحمد حمدي أبو عبسة Vo‏ 
الباب الثالث: تحليل الآراء العربية إلكترونياً 
ael.‏ يوسف أبوجبارة ٠٠١١‏ 
الباب الرابع: التعلم العميق وتطبيقاته المرتبطة باللغة العربية 
د.أحمد الحايك ١5١‏ 
الباب الخامس: شاعر بلا مشاعر: تجربة في الشعر العربي JII‏ باستخدام التعلم العميق 


أغريب واجب غريبي VW‏ 
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هذه الطبعة إهداء من SAM‏ 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 


اا - 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OOO‏ 


الباب الأول 
القراءة الآلية لكتابة اليد العربية 


د. يوسف العريان و د. عرفان أحمد 


EP 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقياً أو تداولها botes‏ 


syg 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
EE EN‏ ااا 


القراءة الآلية لكتابة اليد العربية 


د. يوسف العريان و د. عرفان حمر“ 


ملخص 

هيدف هذا الباب للأخذ بيد القارئ من مقدمات القراءة الآلية إلى أحدث تطورات 
ule‏ فبعد التطرق لأهم خصائص الكتابة العربية» يعرض الباب أهم عمليات 
التعرف JYI‏ على الكتابة اليدوية من معالجة مسبقة وتقطيع لحروف واستخراج ملامح 
وتصنيف ومعالحة لاحقة» مع التركيز على المقاربات المختلفة لمعضلة تقطيع النص 
العربي إلى محارفه تقطيعا صريحا أو ضمنيا أو كليا. 

يشرع المؤلفان بعد ذلك بتبيان أحدث البحوث -وخاصة ما يستعمل مصنفات 
ناذج ماركوف الخفية والتعلم العميق- ويعرضان نتائجها ويعقدان المقارنات بينها بعد 
تمهيد ذلك بشرح أهم قواعد البيانات المشتهرة في تقرير نسب نجاح التعرف الآلي على 
الكتابة العربية اليدوية. وفي ختام الباب فصل للتعريف بأبرز المجلات والمؤتمرات ذات 
العلاقة» لتساعد المهتم في الرجوع إلى أمهات البحوث في مظانها وليعرف أهم بواتق 
النشر المتاحة. 


| — مقدمة 

راود حلم «القارئ GNI‏ البعص حتى قبل ظهور الحاسبات الآلية نفسها؛ ولا 
أدل على ذلك من تسجيل براءات اختراع لقارئات آلية ميكانيكية (كالتي في شكل )١‏ 
وتصنيع بواكيرها في القرن التاسع عشر [YA]‏ هدفت هذه الاختراعات في البداية 
لمساعدة ذوي الاحتياجات الخاصة بصرياًء ثم وجدت طريقها لتطبيقات أخرى كتوزيع 
البريد وإحصاء السكان [YT‏ ورقمنة الكتب والمخطوطات [Y]‏ 


-١‏ د.عرفان أحمد أستاذ مساعد في قسم علوم الحاسب الآلي والمعلومات بجامعة الملك فهد للبترول والمعادن. حصل على 
درجة الدكتوراه في التعرف على BEYI‏ وتعلم الآلة من جامعة دورتموند التقنية بألمانيا de‏ درجة الماجستير في علوم 
الحاسب الآلي من جامعة الملك فهد للبترول والمعادن. نشر العديد من البحوث في مجلات ومؤتمرات مهمة» كما نشر 
بابا في كتاب وله عدة براءات اختراع أمريكية. 
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هذه الطبعة إهداء من OSA‏ 
ولا يسمح بنشرها ورقياً أو تداولها تاوا 


5 (b 


شكل :)١(‏ (أ) جهاز الأوبتوفون الذي يحول حروف الكتابة إلى نغمات و(ب) جزء من توصيف 
«الآلة القارئة» في براءة اختراع. 


ومع ظهور الحاسبات «JI‏ بدأت wY le‏ برمحتها للقراءة الآلية (أو التعرف 
الضوئى ١‏ البصر ي على النصوص «(Optical Character Recognition‏ وذلك لأن 
تحويل صور الكتابات إلى نصوص حاسوبية (Text)‏ يسهل معالجاتها كالبحث فيها 


وتحريرها وتخزينها ونقلها. شكل Y‏ يعرض صورتين ونصيهما ويتيح المقارنة بين 
مساحا: 


هم التخزينية ويبرز إمكانية البحث والتحرير في النصوص. 


يتم نسخ هذه الصفحة لتجرب ضمن بحث لاحق 
لدراسة كيف نقوم بتمييز الحروف العربية آلياء سواء 
كانت مكتوبة أو مطبوعة طباعة. تتضمن هذه التجربة 
كتابة النص من قبل عدد كبير من الناس مع ضرورة 
سرد خم اجو i‏ 
صور هذه ا الى eua‏ أو نظام حاسوبي 
وظيفته مقارنتها مع نفس النص المحفوظ أصلا في 
ذاكرة الحاسب ومن ثم استخراج واستنباط الصفات أو 
المميزات التي تؤدي إلى تمييز المقاطع والحروف. . يفترض 
في هذا النص الوضوح وأن يشتمل على كل حروف 
لغة الضاد وأن يظل صحيح اللغة. أرجو أن تحول 
كتابة الكلمات التالية بالرغم من غرابتها: محمد الح 
الكرك» ¿Lo‏ ضوؤه» اشراق» تعبوي» ثلاث مثلثات» 
«JB Us NI‏ استنساخ» chsh cS, Ux‏ صائغ» 
CARO LN) = COME (On Y 0»‏ س“ 


echa A3) z(eNs 2 ( 


bcd مده لغيه اول ملل‎ e ه‎ 
p E سواد‎ WT | cd vo^! تمرم شیر‎ PM 
1| لقرية كاب ا‎ PE APTA 
PNPA من الاس £ مزع رصرر بومن‎ pnm 
ue من اردور‎ v so ca ی لمشل العلى‎ 
dbi» dy قير هنم اليس‎ Quoi dro قم د‎ 
dp اصن‎ NOCET, paie e 
pub. (bos do url 
P P5 A الصئاي أم يات ال رودت إلى‎ 
كر عرو‎ E ات بلقل‎ Dena ذا الك‎ c 
ad PEZ AM e لصيل‎ Zn E لحه‎ 
) صم )ان م امل‎ iue dot wor cef 
o ar, P o Ey 
M, yyer ear وسن‎ PR A 
eu, NE كيال ؛‎ Ep 
$3 ! ate يله‎ 8 
ل( ا‎ 


حجم الملف: ١١‏ كيلو بايت YY , YAA)‏ بايت) 


حجم الملف: ۰۷ V,‏ ميغا بايت ٠,۱۲١, En‏ بايت) 


DOCX : All امتداد‎ 


امتداد الملف: BMP‏ موحد اللون (أبيض وأسود) 


E 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OOO‏ 


بلغ حاچ olad eot‏ بواديعوف. طفق يسعى لاحغار بلغ حاج أن اخاه ظمآن بوادي عوف. طفق 
تلات شب زمزم oit‏ مع fg pha‏ وضيج Qual‏ حو 9 UD‏ يسعى لإحضار ثلاث قرب زمزم تنجيه مع 
الشيخ نوع xus‏ ذلك ف أعرمه eos‏ ولاف وكال للات آعم سطوع وهيج الشمس. حث عوض الشيخ نوح 
مط etl, dp‏ لص إلعي . RM NH LAUR,‏ 
عش راجج ME‏ م5 لذا جن بغي DS‏ افتهت. عظم. ضبط سهيل وأشخاص لص ال حي. غش 


راجح غثامة لذا جن بغيظ وانقض. انتهت. 


حجم الملف: VAE‏ كيلو ,AVU cub‏ ۲۹۰ بايت) حجم الملف: 5١١‏ بايت 
امتداد الملف: TIF‏ ملون امتداد الملف: TXT‏ 


شكل (Y)‏ أمثلة بيانات حاسوبية صورية ونصية ]٤[‏ 015[ 


والتعرف الآلي على الكتابة من مجالات الذكاء الاصطناعيء والتي تبدف -عموما- 
لمحاكاة بعض قدرات البشر» ومنها التعرف على الأناط وتمييز الحروف. بيد إن جال 
القراءة الآلية أصبح يتضمن أيضا عمليات مصاحبة من عالات كمعالحة الصور 
ولسانيات الحاسب الآلي» كتحديد مواضع الكتابة في الصور» وتحسين جودة الصور 
لتسهيل التعرف على كتابتهاء وت تصحيح نتائج التعرف JYI‏ على الكتابة لغويا. 

١١‏ أقسام القارتات الآلية 

تقشم أكثر التصنيفات الحديثة المتعرفات الآلية من حيث نوع المدخلات إلى نوعين: 

٠‏ التعرف على التراخى (أو المنفصل (040106)) والذي يتعرف على الكتابة 

الورقية المكتوبة سالفا 

٠‏ والتعرف الآني (أو المتصل (online)‏ والذي يتم أثناء الكتابة على لوحات لمس 

. (Tablets) 

وقد ull‏ من الاسمين أن التعرف المتراخي أسهل من GNI‏ لأنه لا يتطلب سرعة 
الإنجاز لمواكبة عملية الكتابة في الوقت الحقيقي (Real Time)‏ لكن الحقيقة-وخاصة مع 
تسارع المعالجات- أن الكفة ربا تتجه لنجاح التعرف الآني» وذلك لتوفر بيانات لا تتوفر في 
co id appena‏ وماس مم 
الكتابة ا بخط is Ju y‏ وبالنقاط» "M‏ النقاط سر عه ET‏ 


-/ااط- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
n—UuUÓ L|‏ 


Á)‏ (ب) 
شكل (۳): Ó)‏ الكتابة الآنية و(ب) تمثيل البيانات الزمنية [NILO]‏ 

وقد تصنف المتعرفات الآلية أيضا حسب طبيعة الكتابة والصور التى تستهدفهاء 
كالتعرف على الخط المطبوع (ولا يكون إلا على التراخي) وخط اليد (ويمكن أن يكون 
على التراخي کا يمكن أن يكون آنيا). كما قد تصنف المتعرفات على التراخي حسب 
مصدر الصورة (من «الماسحات» «scanners)‏ أو من الصور الطبيعية (الناتجة من 
آلات التصوير أو «الكاميرات»» أو حتى من المقاطع المرئية أو «الفيديو»). 

ويمكن تقسيم المتعرفات التي تستهدف الكتابة الموصولة (Cursive Writing)‏ 
كالعربية إلى متعرفات تسعى لتقطيع النصوص إلى حروفها أولاء أو للتعرف على 
الكلمات UIS‏ (دون تقطيعها مسبقا إلى حروف)» أو فيا يسمى بالتقطيع الضمني. 
وقراءة لوحات السيارات» ومعالحة السندات المصرفية (الشيكات) dV]‏ وتوزيع طرود 
البريد» وتفريغ الاستبيانات آلياء والتعرف على كلمات اللافتات في الصور الطبيعية 
[YA]‏ 


٠,۲‏ أهم تحديات التعرف الآلي على الكتابة العربية اليدوية (خط اليد العربي) 

ثمة تحديات قد تواجه المشتغلين في التعرف على خط اليد -عموما-» كتغير رسم 
الحروف بين الكتاب أو حتى للكاتب نفسه في مواضع وأوقات مختلفة» وخاصة إذا 
تغيرت الحالة النفسية أو سرعة الكتابة أو وضعيتها ومكانها وسطحها وقلمها. فهذه 
تحديات تظهر في خط اليد للكتابات العربية واللاتينية والصينية؛ غير أن لكل كتابة 
تحديات خاصة بهاء لذا سنذكر في النقاط التالية بعض تحديات التعرف الآلي على الكتابة 
العربية: 


—YA- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OOO‏ 


* تغير شكل الحروف العربية المنفصلة عن تلك التي GU‏ متصلة با قبلها أو 
o‏ بعدها أو مما معا (قارن -مثلا- أشكال (Ce s (Cx s (e mx‏ 
والع»). وسننصطلح على تسمية أشكال الحروف المختلفة حسب موضعها 
ب»المحارف) .(Character-Shapes)‏ 

. استعمال الفط لتمييز بعض الحروف المتشابهة في أصلهاء ومعرفة مواضع LÉI‏ 
من الحروف وأعدادها. ويزيد الأمر تعقيدا في الكتابة اليدوية» حيث قد يتساهل 
برسمها قبيل أو بعيد احرف وبتنوع زائد في أشكاطا بناء على الخط الذي يختاره 
الكاتب (لاحظ النقط في شكل .)٤‏ 

٠‏ التشكيل وهو اختياري» ما يجعل للكلمة الواحدة أشكالا كثيرة صحيحة. مما 
قد يعقد عمل المتعرفات خاصة مع تشابه بعض النقط مع بعض التشكيل حجا 


وموضعا deos‏ 
٠‏ إمكان التراكب الرأمى لكثير من الحروف العربية المتجاورة عوضا عن dll‏ 
الأفقي 41[ 


د 
Ps‏ 
14 


(=) (—) (0) 


شكل (5): كلمة «ثم» Ó)‏ بدون تشكيل ولا تراکب و(ب) بتشكيلين و(ج) بالتراكب الرأسي 
والنقط المتصل. 

. إنفصال رسم الكلات عند ورود حروف Y‏ تتصل lo‏ بعدها T)‏ حروف 
الألف والدال والذال والراء والزاي والواو ومهموزاتها وممدوداتها)» أثناء 
الكلمةء فلا الكلمات تأت glo‏ متصلة ولا الحروف تكون كلها منفصلة. ومن 
ذلك أيضا الانفصال عند ورود الهمزة المتطرفة على السطر بعد حرف ساكن كما 
في eG o3 p ceca?‏ إذا تمنع قواعد الإملاء اتصال الحرف قبل الأخير بها وإن 
كان في أصله يتصل le‏ بعده. 


-1١4- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
ييا 


e‏ كثرة أشكال الكلمات العربية (إذا ما عرفت الكلمة Leo‏ ما يفصل بالمسافات 
وعلامات الترقيم) بسبب اللواصق السابقة (مثل «باء الجر»» ولام التعريف» 
التي تتصل بأول الكلمة أو مثل «واو العطف» و«ألف الاستفهام» التي قد ترد 
في أوائل الكلمات لكن دون اتصال) واللواصق اللاحقة (مثل «تاء التأنيث» 
و«واو الجاعة») والدواخل e)‏ في جموع التكسير). فمثلاء كلمة «باب» في 
اللغة الإنجليزية هى (door)‏ وهى نفسها تظهر 3( عبارة (“and the door")‏ 
بينا تظهر ختلفة بسبب السوابق الملتصقة بها في عبارة («والباب») .]١١[‏ 

ولكن في المقابل» فاللغة العربية تتمتع بخاصية قد تسهل قراءتها (والتعرف عليها 

آليا)» وهى أن لوصل الحروف وفصلها قواعد لا يجوز الحيد عنها لا طباعة ولا خطاء 
وه دوف اا ل آلا وا سيق V‏ يكنا Sedi‏ بن deca‏ 
الكاتب من حروفها وما لن يصله» وهو مما قد يزيد التعرف على تلك الكتابات غموضا 
وصعوبة عن العربية» وهو ما توضحه أمثلة شكل 0 


الكلمة المطبوعة الصفحة Meeting‏ 
الكلمة المخطوطة | | رمحت Me a‏ 
)( (ب) 


شكل (5): مثالان يوضحان (أ) توحد طرق اتصال الحروف في الكلمة العربية و(ب) واختلافها في 
الحروف اللاتينية .]٤[]١١[‏ 
ولعل هذا ما حدا ببعض الباحثين الغربيين OM‏ يقول: إن العربية أسهل وأوضح 
اللغات في العالم» ego‏ اقترحت تسهيلها وتوضيحها لم يمكن ذلك. ولو استلمت أي 
رسالة -مهم| كانت مسطورة بخط سىء- فلن تواجه صعوبة في قراءتها [YE]‏ 
ونختم مقدمة الباب بذكر ترتيب فصوله الباقية» حيث يتناول الفصل الثاني عمليات 
التعرف الآلي على الكتابة -عموما-. UT‏ الفصل الثالث» فيفصّل الطرق المختلفة UKA‏ 
عمليتي تقطيع النصوص مع التعرف عليهاء فيا خصص الفصل الرابع للتعريف 


لات 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
EE EN‏ ااا 


بأشهر تجميعات الكتابة اليدوية العربية التى تستعمل في اختبار المتعرفات الآلية وتقرير 
نتائجها والمقارنة عبرها بين نتائج أهم أبحاث المجال. بعدهما نتمم فائدة الباب بفصل 
يسرد أهم أوعية النشر المعتمدة في المجال» ثم نختم الباب بخلاصته فمراجعه. 


LLII عمليات التعرف الآلى على‎ -Y 
تبدأ عمليات التعرف الآلي (والتي تشمل عملية «التعرف» التي بمعنى «التصنيف»‎ 
وما يسبقها ويلحقها من عمليات مصاحبة) بعد التقاط الصور وتحديد مناطق‎ 
وذلك لتحسين جودة‎ (Preprocessing) الكتابة فيها بالمعالحة المسبقة للصور‎ 
ووضوح النصوص فيهاء يليها -ني كثير من الأنظمة- مرحلة تقطيع صور النصوص‎ 
إلى صور محارفها أوأي وحدات أكبر أو أصغر تناسب التعرّف. تأي‎ (Segmentation) 
الى یل لاحقا في‎ (Feature Extraction) بعد ذلك مرحلة استخلااص الملامح‎ 
بعد تدريب المصنف على ملامح أمثلة موسّمة. وأخيراء‎ (Classification) التصنيف‎ 
دف تحسين‎ (Postprocesing) قد تورد أنظمة التعرف الآلي مرحلة للمعالجة اللاحقة‎ 
فبعض هذه الخطوات‎ (9S b» نتائج التعرف بالاستعانة باحتالاات صحتها لغويا.‎ 
اختيارية قد توجد في بعض الأنظمة دون الأخرى. وفيا يلي شر للعمليات المذكورة:‎ 
عمليات المعالحة المسبقة‎ , Y 
بعد تحويل المحتوى النصي إلى صورته الإلكترونية (باستخدام الماسحات الضوئية‎ 
والكاميرات في حالة التحويل المتراخي أو ألواح الكتابة وشاشات اللمس في حالة‎ 
التحويل الآني)» قد تجرى بعض هذه العمليات:‎ 
.(Text Localization) تحديد المناطق النصية في الصور‎ ٠ 
إزالة بعض التشويشات الظاهرة على الورق أو التشوهات الناتجة عن تحويل‎ ٠ 
وللتشويش‎ [AA Ye Y] Noise Removal) المحتوى النصى إلى إلكتروني‎ 
أنواع من أشهرها في مجالنا «تشويش الملح والفلفل»» وهو اسم لطيف لانقلاب‎ 
إلى اللون الأبيض أو الأسود.‎ (Pixel) بعض العناصر الصورية‎ 
تمثيل الصورة باللونين الأبيض والأسود بدلا من تدرجات الرمادي والألوان»‎ e 
وهو ما يعرف باسم الترميز الثنائي» حيث يتم اعتماد قيمة من اثنتين فقط لكل‎ 


اا ب 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
n——Xsc c — 510 5‏ 


عنصر صوري (عادة ما نرمز لما بالصفر والواحد) ليمثل أحدهما ما يظهر داكنا 
كالحبر ويمثل الآخر ما يظهر فاتحا كخلفية الصفحة. 
وثمة العديد من تقنيات تحويل الصور إلى ثنائية» يحدد في بعضها لون العنصر (أبيض 
أم أسود) من قيمته هو فقط حسب حد فاصل (ثابت أو متأقلم) ويحدّد بعضّها بموجب 
قيمة العنصر الصوري المراد تثنيته وقيم ما يجاوره من عناصر صورية أيضا. 

e‏ تصحيح انحراف الكتابة (سواء أحدث الانحراف عند الكتابة أو عند تحويل 
الصفحة إلى صورة إلكترونية) يوضحه شكل 1 . وتبدأ عملية تصحيح الانحراف 
عادة بتقدير درجة الانحرافء قبل أن يدور النص في الاتجاه المعاكس لانحرافه 
وبزاوية مساوية لزاوية الانحراف. ولتقدير زاوية الانحراف» كثيرا ما تستخدم 
DU‏ مبنية على حساب الإسقاطات du T (Projections)‏ العناصر 
الصورية الغامقة في كل من أعمدة أو أسطر الصورة)» أو «تحليل المكونات 
الرئيسية») (Principal Component Analysis)‏ أو هيكلة Text) y pall‏ 
((Skeletonization‏ او تحليل الكونتورات المحيطة بالحروف والنصوص 
(Contours)‏ أو تحويل هف (Hough Transformation)‏ لتحديد القطع 
المستقيمة. شكل ” وشكل ۷ تعرض أمثلة صورية لإيضاح بعض هذه التقنيات 
المساندة لتصحيح انحراف الكتابة واستخراج الملامح ومعالجة الصورة. 


مس محاثة وأ جحد عشر_ 

y 9— وضعسة‎ S scu n 
تهاد ب نا‎ aa S نمس حاثة وتط‎ 
اٹہ وو اعدو ستےن‎ S حمس‎ 
و سبكين‎ Sa حمس‎ 


= (b 


شكل (CO‏ تحويل هف O‏ قبل و(ب) بعد تطبيقه على نص لاتيني EVI‏ وعربي [۱۸]. 


—-YNY- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OO‏ 


هيكلة النصوص فس 


gb ou, p? eue | الكونتور‎ gus 


(—) () 

شكل (۷): كتابة بخط اليد Ó)‏ قبل و(ب) بعد هيكلة النصوص ]١ ET‏ وتحليل الكونتور [Voc V‏ 

٠‏ ثمة idas‏ معالجة مسبقة أخرى تتعلق بميل أجزاء الحروف الصاعدة والنازلة 

عن الاتجاه الرأسي» وذلك أن بعض الحروف قد تظهر في بعض المواضع مائلة» 

إما لإبرازها ىا يحدث عند استعمال خاصية الخط المائل Italic)‏ أو بسبب 

وضعية اليد عند الكتابة. وعادة ما يراد في هذه الحالة تعديل زوايا الأجزاء 

الرأسية إلى زاوية موحدة (غالبا ما تكون الزاوية العامودية) للتخفيف من 

الاختلافات بين أشكال الحروف في مواضعها المتعددة. تسمى هذه العملية 
بتعديل الميل (Slant Correction)‏ 


(o) Á) 
[41 قبل تعديل الميل و(ب) بعد تعديل الميل‎ (D كلمة «ليان»‎ : CA) شكل‎ 

٠‏ وأخيرًا يمكن السعي لتقليل التباين في أحجام الخطوط عبر ما يسمى بضبط 
حجم الحروف وتطبيعه (ize Normalization)‏ مثل سعى بعض الطرق 
[Y *]‏ لتوحيد ارتفاعات الأجزاء الصاعدة من الحروف وضبط أحجام بقية 
الحروف بالتناسب مع ذلك. dia‏ ويجدر التأكيدٌ على أن وجود -فضلا عن 
ترتيب- خطوات ما قبل المعالجة ليس موحداء بل متباين من نظام لآخر. 
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هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
ييا 


Y , Y‏ التقطي 
تقطيع Gags ike (Segmentation) P‏ للحصول على صور 
«مقاطع» أو أجزاء أساسية من النصوص (كالحرف بالنسبة للكلمة مثلا) [Y]‏ قد 
يجري «التقطيع» على عدة مستويات» كتقطيع صور النصوص إلى أسطرء وتقطيع الأسطر 
إلى كلمات أو دون-الكلمات (Subwords)‏ («دون-الکلات» هو ما يكتب متصلا 
في العربية لعدم انتهاء الكلمة وعدم ورود حرف لا يتصل lo‏ بعده ضمنهاء وتسمى 
أيضا Pieces of Arabic Words‏ أو à Connected Components‏ أحد معنييها). 
بل إن عملية تحديد مناطق النصوص في الصور (Text Localization)‏ -المذكورة آنفا 
ضمن عمليات المعلاجة المسبقة- قد ينظر إليها على Vel‏ من مستويات تقطيع صور 
الصفحات لقراءتها آليا. بيد إن أشهر مستويات التقطيع وأهمها على الإطلاق والمراد 
بمصطلح «التقطيع) إذا أطلق: هو تقطيع صور النصوص إلى محارفها Character)‏ 
0 حيث |« lòj-‏ نجح- قد يسهل عمليات التعرف الآلي اللاحقة. 
يوضح شكل 4 بالألوان نتائج التقطيع: إلى أسطر cols s‏ ودون-الكلمات والمحارف. 


zb He | olle] polet] geet 


m3 ah يعر لو ودام لون‎ iri ane gini d لور‎ nae 
di زی ںا مالقا‎ ur 2 اراز‎ 2 
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شكل (4): تقطبع صور النصوص إلى (أ) أسطر و(ب) كلمات و(ج) دون-الكلمات و(د) حارف [rriv]‏ 

فصورة النص إذا كانت تحوي عدة أسطر فقد يراد تقسيمها كل سطر على حدة. وهذه 
الخطوة قد تزداد صعوبة للفقرات المائلة أو التى في جوانبها هوامش كا في الكثير من 
المخطوات EY YT ATI‏ لذلك» قد يتوجب استعمال أساليب أكثر ذكاء في هذه الحالات 
كي نتمكن من تقطيع الأسطر كلها دون دمج مكونات عدة أسطر سويا Under-)‏ 
0 69699 ودون تقطيع سطر ما إلى عدة أسطر (Over-Segmentation)‏ 
ودون توزع مكونات السطر إلى أسطر مجاورة .(Miss-Segmentation)‏ وهذه هي 
الأنواع الثلاثة لأخطاء التقطيع عموما: عدم تقطيع ما حقه التقطيع» والإفراط في 
تقطيع ما ليس حقه التقطيع» والخطأ في موضع التقطيع). 


ا 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
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£ EI 
غالبا ما تقطع الأسطر إلى كلمات بناء على المسافات البيضاء بينهاء وإن كانت الكلمات‎ 
العربية قد توجد فى بعضها فراغات بيضاء أصغر بين أجزائها المتصلة؛ ما قد يصعب‎ 
ملاغها‎ JN بموجب‎ (Holistic) تقطيعها. ثمة متعرفات تحاول قراءة الكلات كليا‎ 
.٠١ للكلمات رغم خطأ ترتيب بعض حروفهاء كما في المثال الذي في شكل‎ 
I cdnuolt blveiee taht i cluod aulaclty uesdnatnrd waht i was rdanieg. The 
phaonmneal pweor of the hmuan mnid, aoccdrnig to a rschecarch at cmabrigde 
uinervtisy, it dseno't mtaetr in waht oerdr the Itteres in a wrod are, the olny iproamtnt 
tihng is taht the frsit and lsat ltteer be in the rghit pclae. The rset can be a taotl mses 
and you can sitll raed it whotuit a pboerlm. Tihs is bcuseae the huamn mnid deos not 


raed ervey lteter by istlcf, but the wrod as a wlohe. Azanmig huh? Yach and i awlyas 
tghuhot slpeling was ipmorantt! 


شكل :)3١(‏ نص إنجليزي مقروء رغم خلط ترتيب حروف الكلمات الداخلية. 

تتجلى معضلة كمعضلة «البيضة والدجاجة» بين عمليتي تقطيع النص العربي إلى 
محارفه والتعرف عليه» إذ يصعب تقطيع المحارف دون تعرّف عليهاء ea‏ يصعب 
التعرف على النصوص دون تقطيعها لمحارفها! لذاء لم تنجح أكثر أنظمة القراءة الآلية 
المعتمدة على تقطيع الحروف» وظهرت أنظمة تداخل التقطيع مع التعرف وتناو | 
لتحاكي قراءة الإنسان» كا ظهرت أنظمة تدعو للتعرف على دون- الكلمات العربية. 

يطلق مصطلح «الجزء المتصل» في سياق التعرف JYI‏ على الكتابة العربية بمعنيين: 
ما يشمل النقاط والتشكيل ضمن محارفه (وهو يرادف «دون-الكلمات»)»: وأيضا ما 
هو مجرد عن النقاط والحمزات والمدة والتشكيل» مع جعل النقاط وال همزات والمدة 
والتشكيل أجزاء متصلة مستقلة. 

تتنوع أضرب التقطيع قبل التعرف الآلي في اللغة العربية إلى أنواع» أهمها: تقطيع 
النص إلى حارف» وتقطيع النص إلى coU SM‏ المتصلة» وتقطيع النص إلى كلمات 
للتعرف عليها كليا. ويمكن لكل من هذه الأضرب التعرف على المقاطع دون النقاط 
أولا ثم تحديد النتائج بالنقاط» أو التعرف عليها بالنقاط منذ البداية. 


—-Yo- 
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۳ استخراج الملامح 

تلجأ كثير من الأنظمة إلى التعبير المختصر والمركز عن الصور المراد التعرف عليها 
بأهم ملامحها (Features)‏ وذلك تصغيرا لحجم البيانات وتسريعا لوقت المعاللجة من 
جانب» وتركيزا على ما بهم القارئ من المحارف وإهمالا لما لا هم القراءة كفروقات 
الخطوط الفردية» من الجانب الآخر. ومع أن تصميم واختيار الملامح المناسبة فن سبيل 


الخصائص العامة للملامح المناسبة» أهمها: 

٠‏ أن تتجاهل الفروق 3( كتابة الحرف الواحد CIntra-Class Variability)‏ قدر 
الإمكان» إذ لا بد من اختلاف بين الكتاب في رسمهم للحرف؛ بل إن الكاتب 
نفسه قد يختلف رسمه للحرف من مرة لأخرى. فالملمح المناسب يقل تأثره بهذه 
الفروقات الفردية. 

٠‏ أن m‏ الفروق بين الحروف المتعددة (Inter-Class Variability)‏ فيعكس 
اختلافات أشكال «السين» و«الشين» و«الحاء») -مثلا-. 

٠‏ ألا تتأثر الملامح -قدر الإمكان- بحجم الكتابة ولا بقليل من الميل والالتفاف 
فيها Scale and Rotation Invariant)‏ ولا بيسير التشويش. 

اقتبست كثير من الملامح المستعملة للعربية من أعمال وأبحاث للغات أخرى. ومن 

أشهر هذه الملامح: كثافة العناصر الصورية [۳٠-۲۷1‏ وأعداد مرات الانتقال من بياض 
لسواد والعك [Y4],‏ وملامح التدرج [AY * ] (gradient features)‏ ومقاييس 
التقعرات [YA-ACYV]‏ وترميزات اتجاهات الس (Chain-Code Directions)‏ 
[Y KY Y]‏ وتوصيفات [YY](Fourrier Descriptors) pj‏ ومرشحات «جابر) 
[YE] (Gabor filters)‏ والملامح المعتمدة على النسب المئوية لعناصر الصورة [A]‏ 
ومؤخرا قيم العناصر الصورية مباشرة للتعلم العميق .]۲۷-۲٠[‏ كا أن للملامح 
مشتقات قد تستعمل أحيانا مع الملامح الرئيسية لزيادة دقة التعرف DAC ACY]‏ 
كا قد عرّفت بعض الملامح للتراكيب العربية أصالة تحلل نقاط النصوص وصواعد 
ونوازل الحروف [۲۹۰۳۰۱]. 


ات 
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٤‏ و ” التصنيف 
عملية التصنيف (ويطلق عليها مجازا «التعرف)) ag‏ لمعرفة رمز النص من ملامحه 
بعد تعلمه من أمثلة. تمر المصنفات بمرحلتين على الأقل: مرحلة التدريب والنمذجة 
«(Training and Modelling)‏ ثم مرحلة التعرف والتصنيف Recognition), Jl‏ 
(and Classification‏ كما قد تمر بعض المصنفات 4 àl-‏ تحقق (Validation)‏ 
لتحسين تدريبها ونمذجتهاء وبمرحلة اختبار (Testing)‏ لتقرير نسب نجاحها في 
الخموت العلمة والساقات: 
* التدريب 
يعطّى المصنف في مرحلة التدريب أمثلة مُوسّمة (Labeled)‏ برموز المحارف أو 
الكلمات التي في تلك الأمثلة» وذلك حتى «يتعلم» النظام -بإحدى خوارزميات 
التعلم- أن يسم أمثلة لم تعرض عليه حسب ملاعها. ينتج عن مرحلة التدريب «نماذج» 
يستعملها المصنف لاحقا في مرحلة التعرف. 
* التعرف 
وهي المقصود النهائي للقارئات الآلية» والوحيدة التي تهم المستخدم النهائي. يعطى 
المصنف في مرحلة التعرف الملامح المراد التعرف على نصوصهاء وهذه هي المرحلة 
الوحيدة التي لا تستعمل فيها أوسام مسبقة للنصوص. 
* الاختبار 
تأتي مرحلة الاختبار -بعد أن يجهز المتعرف- لقياس مدى نجاحه» فيعطى صور 
المحارف دون أوسمتهاء و Brå‏ بالأوسمة للمقارنة بها وتقرير نسب النجاح (التعرف 
الصحيح) والخطاً. تفصل نسب الخطأ أحيانا إلى أخطاء (Insertion Errors) cl‏ 
وأخطاء إسقاط (Deletion Errors)‏ وأخطاء تبديل (Substitution Errors)‏ نجرى 
مرحلة الاختبار عادة على قواعد بيانات مشهورة لتتيّسّر المقارنة بين البحوث. 
قد يعيد البعض استخدام جزء من صور التدريب في الاختبار» ea‏ يحبذ آخرون 
الفصل التام بين أمثلة التدريب وأمثلة الاختبار للتقليل من احتتالية «الحفظ الجامد» 
دون تعلم Overfitting)‏ وقد ترجح هذه الطريقة أو تلك حسب حجم البيانات 
ا متوفرة» وحسب الهدف من التعرف (هل هو محدود بخطوط كتاب معيّنين أو (ele‏ 


—-YN-— 
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وبين لا بد أن تشمل صور التدريب الموسومة جميع أنواع المحارف وأشكاطاء لا يشترط 
ذلك لصور الاختبار (وإن كان قد يفضل). ويختلف الباحثون في نسب ما يخصصون من 
البيانات للتدريب والاختبار» وينصح أن تكون تلك النسب قريبة من AT‏ للتدريب 
و٠5/‏ للاختبار IY]‏ 


* التحقق 

نستطيع توضيح مفهوم التحقق بموجب مرحلة الاختبار: فالتحقق ما هو إلا 
«اختبار تجريبي» بهبدف لتلافي مواضع الضعف وتحسين أداء المصنف بناء على نتائج 
مؤقتة لا هيدف لنشرها. يساعد التحقق الصحيح في تجنب بعض المحاذير مثل «الحفظ 
ا لجامد» (حيث يفرط المصنف في «قولبة» الفروقات والتشابهات التي مثلتها له ملامح 
أمثلة التدريب) فيتكشف ذلك عندما تعطى له أمثلة التحقق, ما يسمح بتدارك الأمر 
وإعادة النمذجة. وخلافا لمرحلة الاختبار» فإن مرحلة التحقق يمكن أن تكرر مرارا. 


Y , o‏ المعالحة اللاحقة 

قد يستعان في الخطوات الأخيرة للتعرف الآلي بمعاجم Ael 33  (Lexicons)‏ 
لغوية U (Linguistic Rules)‏ تقبله اللغة أو 5 casa‏ أو ce‏ إحصائية Statistical)‏ 
5 للشائع لغويا ك»الورودات AMI‏ ب) ((N-Grams)‏ لترجيح أو استبعاد 
نتائج التعرف» لا سيم| عندما تكون الكلمات المراد التعرف عليها حصورة في جال محدد 
كالطب أو المندسة أو أسماء مدن .(Domain-Specific)‏ 


ألمحنا -سابقا- إلى حدوث (Recursion) UD‏ بين التقطيع والتعرف» وقد 
نشأت عن هذه المعضلة أنواع لمعماريات القراءة الآلية» منها: 


Y,‏ التعرف القائم على التقطيع 

التعرف القائم على التقطيع هو الأسلوب التقليدي حيث تُقطع صور النصوص 
إلى صور للوحدات التي يراد التعرف عليها قبل عملية التصنيف [Y]‏ ويعرّف هذا 
الأسلو - أيضا بأسلو - التقطيع الخار «(External Segmentation) T.‏ أو التقطيع 
الصريح (Explicit Segmentation)‏ وشكل ١‏ يوضح معاريته العامة. 


—YA- 
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وأكثر ما قد تنجع فيه هذه الطريقة للمطبوع من النصوصء es Y‏ إذا كان بخطوط 
صممت خصيصا لذلكء كالخطوط التي تعطي جيع المحارف نفس العرض أو التي 
تترك فراغا صغيرا بين المحارف [Y£]‏ 


رموز الكلمات التعرف كلمات al‏ اجزاء كلمات 
شكل :)1١(‏ مخطط عمليات التعرف القائم على التقطيع. 


Y', Y‏ التعرف الكلي (دون التقطيع إلى حارف) 

اقترح باحثون [۳۷] التعرف على الكلمات أو أجزاء الكلمات العربية دون تقطيعها 
إلى حارف» كما في المعمارية المبينة في شكل AY‏ 

شكل daa :)١17(‏ عمليات التعرف الكلى. 

وما يساند هذا الاتجاه: تغيّب الحركات عن أكثر كتاباتنا اليومية (حيث يتدرب 
القارئ العربي على استناج التشكيل والكلمات من السياق) ولمن لا يعرف العربية» 
(Vowels)‏ لتوفير تجربة شبيهة بقراءة العربية» وهو ما أوردناه للفائدة في شكل AY‏ 
يؤدي تغيّبٍ الحركات في كتاباتنا اليومية إلى «إعادة تدوير» رسم الكلمات» فمثلا رسم 
«كتب» يستعمل لكلمات عديدة مثل adla s «6 CS (TC‏ 
كانت بالتشكيل أو بأحرف لاتينية لاحتاجت لأربعة أصناف kataba”. "kutiba".)‏ 
(C Kkutubun". *kutubin‏ 

علاوة على ذلك» يتجه الكثير من الباحثين لحذف النقط والهمزات والمدة من صور 


النصوص ليشمل الرسم الواحد أكثر من كلمة» فتدخل تحت صنف «كتب» عندئذ 
cos‏ هثل euis)‏ کنب sS anus‏ 


Just to feel the task, read the following English sentence: 
“jst t fl th tsk, rd th fllwng nglsh sntnc" 


شكل (VY)‏ : مثال إنجليزي حذفت منه حروف العلة [YA]‏ 


-۲۹- 
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Y‏ ۳ التعرف الذي يتخلله تقطيع ضمني 

التقطيع القائم على التعرف» أو التقطيع الداخلي (Internal Segmentation)‏ أو 
الضمني «(Implicit Segmentation)‏ يستند إلى خوارزميات تقترح أثناء التعرف 
مواضع أولية لابتداء وانتهاء المحارف» ثم تكرر محاولات التعرف إلى الحصول على 
نتائج جيدة إحصائيا أو لغويا. شكل ٠١‏ يوضح معرارية التقطيع القائم على التعرف. 
ويمكن التجوز واعتبار أن التعرف الضمني يجعل التقطيع والتعرف يحدثان معا في 


نفس الوقت» كأشبه ما يكون بقراءة الإنسان. 


شكل :)١4(‏ مخطط عمليات التعرف الذي يتخلله تقطيع ضمني. 
وقد أخرنا الكلام عن هذا النوع لأهميته حتى نتمكن من الاستفاضة بطريقتي 
coe‏ ماركوف Gall‏ وتقنيات «التعلم العميق» العاملتين بالتقطيع الضمنى. 


Y SY SY‏ التعرف بنماذج ماركوف الخفية 

ce‏ ماركوف الخفية Hidden Markov Models)‏ أو HMM‏ ختصارا) تعمل 
عادة على صور الأسطر الكاملة» رغم وجود القليل من الأعمال التي استعملت نماذج 
ماركوف الخفية في التعرف على أعداد ومحارف منفصلة أو مقطعة EY 965 ٠[‏ أيضا. 

يرجح كفة استعمال HMM‏ على أساليب أخرى (كآلات متجهات الدعم Support)‏ 
(Vector Machines‏ والشبكات العصبية الاصطناعية Artificial Neural)‏ 
595 والغابات العشوائية (Random Forests)‏ هو قدرتها على تقطيع mo‏ 
النصوص ضمنيا أثناء التعرف على صور الأسطر وأحيانا الفقرات. 

نتحدث فيا يلي عن أشهر طرق استخراج الملامح المستعملة مع ناذج ماركوف 
الخفية» ثم نتطرق لوحدات النمذجة المشتهرة فيها ولشكل السلاسل الأكثر استعمالا 
gag)‏ ما يسمى ب«طوبولوجيا» (Topology)‏ السلسلة) ثم نذكر أشهر خوارزمياتها 
للنمذجة الصورية (للتدريب) واللغوية (للمعالحة اللاحقة). 


EIC 
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الملامح الأشهر استعمالا مع متعرفات نماذج ماركوف الخفية 

عادة ما تلجأ أنظمة التعرف القائمة على نماذج ماركوف الخفية -بعد عمليات المعالحة 
المسبقة- إلى حساب الملامح عبر ما يعرف «بالنافذة المنزلقة» (Sliding Window)‏ 
[EY Y 3‏ حيث يحدد جزء له نفس ارتفاع صورة السطر المراد التعرف على محتواه 
النصي بعرض مقارب لذلك الارتفاع» فتحسب الملامح ذلك الجزء من الصورة والذي 
يعرف باسم «النافذة». تزلق النافذة (تزاح) من أول السطر (يمينه) حتى آخره (يساره) 
وتكرر عملية حساب الملامح مع كل موضع من مواضع النافذة. 

ثمة أسلوبان مشهوران لإزاحة النوافذ المنزلقة» أحدهما: إزاحتها بمقدار عرض النافذة 
بحيث لا يحصل تداخل بين مواضع النوافذ [۲۷]» والآخر: إزاحتها بعرض أقل من ذلك 
فيحصل تداخل جزئي بين النوافذ [5 ٠575‏ ]كما هو مبين في شكل Vo‏ [۱۸]. 


منطقة تداخل 
شكل :)٠١(‏ النافذة المنزلقة ويرى فيها تداخل بين النافذة الحالية (المستطيل الأخير) وبعض السابقة 
(المستطيلات المنقطة) EVAT‏ 


axe ت كه تارب‎ sa sls d ado a8 b ste 
لجعل عرض النافذة يتغير اعتمادا على خصائص الصورة كأبعاد القيعان التي بينها قمم‎ 
وقد وجد هؤلاء‎ - (Vertical Projection) في إسقاطات عناصرها الصورية الرأسية‎ 
كا أن ثمة تجارب استحدثت نوافذ منزلقة‎ [YT الباحثون تحسنا في النتائج جراء ذلك‎ 
وأخيراء فعلينا أن‎ [Y £0] مائلة (يمينا ويسارا) استعملت مع ناذج ماركوف الخفية‎ 
ننوه إلى عدة أبحاث سعت لاستعمال نماذج ماركوف الخفية مجردة عن أسلوب النوافذ‎ 
[Ev EV] المنزلقة بالكلية‎ 
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وحدات التعرف الأشهر في نماذج ماركوف الخفية 

أكثر esl‏ ماركوف الخفية تستهدف المحارف [VYY AT EN EAT‏ لا الحروف 
S- liay [£3]‏ أسلفنا- لأن الحرف العربي له أكثر من شكل بحسب اتصاله با 
قبله وما بعده Ut‏ يصعب نمذجتها كلها بسلسلة موحدة؛ فأكثر المحارف استعمالا 
أشكال الحرف حسب الموضع («الشكل المنفصل»» و«الشكل e las ME‏ و«الشكل 
المتوسط»» و«الشكل النهائي»)» ولكن الأمر لم يخل من مساع لتجريب محارف أخرى 
كنمذجة الأجزاء الرئيسة والمكملة من الحروف إلى محارف £V]‏ ونمذجة الأجزاء 
التى تشترك فيها عدة حارف ٠[‏ 925 5 ]» ونمذجة حرفين أو عدة حروف معا KS‏ في 
سينا لتمذحة رابات الأشهر لمحرفين فاكر معا[ ١‏ 6]). وقد وجدت bál‏ ماع 
لنمذجة المحارف وأجزاء الكلمات مجردة من النقط والهمزات والتشكيل» ونمذجة تلك 
النقاط وال همزات والتشكيل على حدة Lo Y]‏ وأخرى لنمذجة الفراغات البيضاء (بين 
الكلمات) أو البينية (التي تقع بين أجزاء الكلمة المنفصلة) [۲١١۲۹1‏ بسلاسل مستقلة. 

أشكال السلاسل الأشهر لناذج ماركوف الخفية 

تعتمد أغلب ناذج المحارف على طوبولوجيا باكيس (Bakis)‏ لسلاسل ماركوف 
الخفية» وهو اسم للطوبولوجيا التي تسمح (elo‏ بتخطي المرحلة التالية من السلسلة إلى 
التي بعدها كا يبينها شكل ٠١‏ (ب). والسر في اللجوء هذه السلاسل يكمن في مرونتهاء 
خاصة وأن حروف العربية تتفاوت في العرض» بل إن عرض الحرف نفسه قد يختلف 
من موضع لآخر بسبب استعمال التطويلات أو أسلوب خط معين. وهذا لا يعني عدم 
وجود بحوث ناجحة استعملت طوبولوجيات أبسط (كالخطية (IY * c£YcE£]‏ وأعقد 


1 من طوبولوجيا باكيس» لكن المقصود الإشارة لما اتفق على استعماله أكثر الباحثين. 


(DCDCDC AAGO 
“XOLA -0-O-O-O- 


0 (ب) 


EA P (co) كل 101503 (1)طوبول سباخطة‎ 
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الخوارزميات الأشهر لتدريب نماذج ماركوف الخفية 

بعد نمذجة المحارف» يكثر استعمال خوارزمية فيتيربي (Viterbi)‏ والتي 
ظهرت لأول مرة في منتصف الستينيات من القرن الماضى» لتحديد التسلسل الأمثل 
coe‏ ماركوف hlel‏ على i£ JI‏ الديناميكية (Dynamic Programming)‏ 
J[YYe£ c£coYco£]‏ 


ولتحديد احتمالات الانتقال الأنسب بين النهاذج» فكثيرا ما تستعمل خوارزمية 
تدريب تعرف هي الأخرى باسم مخترعيهاء باوم وويلتش (Baum-Weltch)‏ 
[5 6776565 ]. وللمزيد» يمكن الرجوع لبحث ١‏ تقنيات التعرف الالي 
على الكلام المنطوق وتطبيقاتها في القرآن الكريم-واقع وطموح» في كتابنا السابق 
«الحرف العربي والتقنية» ]03[ 

النمذجة اللغوية 

قد يستعان بعد التصنيف بنوع آخر من الناذج لترجيح كفة المقبول والشائع 
احتاليا ولغويا من الكلات» وهذه تسمى بالناذج اللغوية. وناذج ماركوف الخفية 
تتیح ce) Jl‏ اللغوية (وخاصة «الورودات السايقة) (n-grams‏ بسلاسة. 
فقد استعملت هذه الناذج على مستوى الحرف والمحرف إلى f‏ ورودات سابقة 
بعدما حسبت من «مدونات لغوية» حوت عشرات الملايين من الكلات [ove A]‏ 
كما قد تستعمل أيضا أجزاء-الكلات للنمذجة اللغوية DOA]‏ ضمن تنويعات أخرى 
لوحدات النمذجة اللغوية. 


1,, التعلم العميق للتقطيع ضمني 

موجة «التعلم العميق») (Deep Learning)‏ صاعدة -هذه الأيام- في شتی Nu‏ 
رؤية الحاسب «(Computer Vision)‏ وليس التعرف على النصوص مستثنى من 
ذلك ]1 08[ التعلم العميق قائم على الشبكات العصبية الاصطناعية Artificial)‏ 
Neural Networks‏ أو (ANN‏ كثيرة الطبقات. وإذا استعين فيها بتقنيات للتصنيف 
الز مني التو Connectionist Temporal Classification) de‏ أو (CTC‏ والشبكات 
العصبية المتكررة Recurrent Neural Network)‏ أو (RNN‏ وبنى الذاكرة قصيرة- 
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المدى الطويلة Long Short-Term Memory)‏ أو «LSTM‏ تصبح ماهرة في التقاط 
السياقات المشتركة -وإن تباعد ورودها-» وهو ما يجعلها مفيدة في مجال التعرف على 
النصوص دون التقطيع المسبق ]03[ 

لذاء فقد فتحت هذه التقنيات الحديثة الباب للتعرف على النصوص العربية المكتوبة 
بالتقطيع الضمني كما في 56596751 7]. فالشبكات العصبية التكرارية للتعرف QVI‏ 
على النصوص دون تقطيع يمكن أن تستخدم على النهج الذي قدمه Graves‏ و 
Schmidhuber‏ ثم عاد فطوره Graves‏ لاحقاء بحيث تعالج العناصر الصورية في 
شبكات عصبية تكرارية متعددة الأبعاد Multi-Dimensional Recurrent Neural)‏ 
Network‏ أو MDRNN‏ اختصارا). 


۳ نماذج ماركوف الخفية مع التعلم العميق 

تنتشر طرق هجينة لاستعمال التعلم العميق جنبا إلى جنب مع ناذج ماركوف 
الخفية (C92‏ في (YT, CoA]‏ فنماذج ماركوف الخفية قد تستعمل في محاذاة المحارف 
مع صورها (التقطيع الضمني) -مثلا- قبل التعلم العميق للمحارف» أو لتدريب 
الشبكات العصبية التكرارية مع البنى ثنائية للذاكرة قصيرة-المدى الطويلة على gU‏ 
تلك المحاذاة القسرية» قبل استعمال نتائج هذه الأخرى لإعادة تدريب ناذج التعرف 
النهائي على النصوص [57[11151[1755]. 

وقد قَذّمت دراسات قارنت بين نظم مبنية على التعلم العميق (كالشبكات العصبية 
التكرارية مع الملامح ذات الذاكرة قصيرة-المدى الطويلة RNN sl)‏ مع (LSTM‏ 
للقراءة الآلية العربية وأخرى على نماذج ماركوف الخفية 301[ باستعمال نفس الملامح» 
استطاع في أغلبها نظام التعلم العميق التفوق على غيره. وخلصت دراسة مقارنة إلى أنه 
ليس ثمة فرق كبير بين استعمال الشبكات العصبية التكرارية مع الملامح ذات الذاكرة 
قصيرة-المدى الطويلة وبين استعمال الشبكات العصبية العادية (MLP)‏ وأنه لا فرق 
يذكر كذلك بين استحداث واستعمال ملامح متقدمة وبين تقديم العناصر الصورية 
بصورتها الخام إذا تم تدريب كل نظام با يناسبه DV‏ وهذا ما يحث الباحثين إلى 
محاولة تفهم هذه الأنظمة وخصائص كل منها بشكل أكبر» ويدعوهم للتدقيق في 
نتائج التعرف والمقارنات بينهاء وهو ما لا يتأتى إلا بفهم طبيعة البيانات التي تتم 
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عليها مرحلة الاختبار. لذاء فقد أفردنا الفصل التالي للتعريف بأشهر قواعد بيانات 
الكتابة العربية اليدوية التي تستعمل في تدريب واختبار وتقرير نتائج المتعرفات الآلية 
في البحوث العلمية. 


؛ - مقارنات لبعض أشهر أنظمة التعرف الآلي على النصوص العربية المكتوبة 
بخط اليد 

قبل المقارنة بين النتائج المنشورة لأي متعرفات» يجدر بنا التعرف على قواعد البيانات 
التى تجرى اختبارات كفاءة المتعرفات الآلية عليها. وفيا يل» نذكر أشهر هذه القواعد 
بع أل do‏ كم بعك الاك تقدم aol aM olas‏ التعرق:الأل عل qe pad‏ 
المكتوبة بخط اليد مع إيراد نسب الخطأ فيهاء والإشارة إلى خصائصها وقواعد البيانات 
التي قررت نتائجها عليها. 

,١‏ قواعد بيانات للكتابة العربية اليدوية 

نعرض في يلي تسع قواعد بيانات -مرتبة حسب وقت نشرها التقريبي- مع نبذة 
عن كل منها. ثم نعرض بعدها مقارنة جدولية ها. 

٠, V, Y‏ قاعدة بيانات الإسراء 

تتكون قاعدة بيانات الإسراء [1V] CAL ISRA database)‏ من olds‏ عربية 
وأرقام وتوقيعات وجمل حرة» جمعت من حوالي مائة طالب من جامعة الإسراء الأردنية 
لصالح باحثين في جامعة كولومبيا البريطانية. ولكن -وكأغلب قواعد البيانات حينها- 
فقد افتقرت قاعدة الإسراء إلى فقرات نصية كاملة مكتوبة في بيئة طبيعية. 

٠,۲‏ و4 قاعدة بيانات الشيكات العربية 

جمع العوهلي وآخرون قاعدة بيانات لسندات مصرفية (شيكات) عربية 
[V] (CENPARMD‏ والتي اشتملت على نصوص وأرقام تم استخراجها من ٠٠٠١‏ 


سندا وفرها مصرف الراجحى في المملكة العربية السعودية. لذاء فهذه القاعدة قد تفيد 
كثيرا تطبيقات التعرف على محتوى السندات البنكية. 
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٠, Y, Y‏ قاعدة بيانات النص العربي المكتوب بخط اليد 

تتضمن قاعدة بيانات النص العربي المكتوب بخط اليد Database for Arabic)‏ 
Handwritten text‏ أو (AHDB‏ الكلمات المستخدمة في كتابة المبالغ على السندات 
المصرفية ىا اشتملت أيضا بعض صفحات الكتابة الحرة بخط ٠٠١‏ كاتب [18]. 


Y, ٤‏ ,£ قاعدة البيانات الحرة للأحرف العربية بخط اليد 

أعد الباحثان خضر وعبندة ]£ [ قاعدة بيانات مبكرة للأحرف العربية كتبت بشكل 
حر (بلا قيود على طريقة الكتابة) من قبل EA‏ كاتبا. (QS‏ طلبوا كتابة فقرة نصية حوت 
أشكال المحارف والأعداد العربية وبعض الرموز دون فرض قيود على طريقة الكتابة. 


٠, ٠,١‏ قاعدة بيانات الأرقام» والحروف. والرموز المعزولة والمتصلة في كلمات 
وهي قاعدة بيانات طورها العمري لتحوي أرقاماء وحروفاء ورموزا كتلك التي 
تكتب في التواريخ والأعداد والكلمات 341[ 


5 ,4 قاعدة بيانات الأعداد العربية 

قاعدة بيانات الأعداد العربية المكتوبة بخط اليد A database of handwritten)‏ 
Arabic‏ أو (ADBase‏ مناسبة لأهداف التعرف الآلي على الأرقام العربية (والتي تعرف 
أيضا بالأعداد ال هندية) [Ve]‏ 


9۷ قواعد بيانات مشروع تحليل وترجمة وتصنيف المستندات متعددة اللغات آليا 

مشروع تحليل وترجمة وتصنيف المستندات متعددة اللغات آليا Multilingual)‏ 
Automatic Document Classification. Analysis and Translation‏ أو 
(MADCAT‏ ترعاه الوكالة الأمريكية لمشاريع الأبحاث المتقدمة Say (DARPA)‏ 
دعم الجيش الأمريكي بقدرات على القراءة والترجمة الآلية من عدة لغات» من أهمها 
العربية [VY]‏ أنتج المشروع في مراحله MI‏ نصوصٌ تدريبٍ مكتوبة بخط اليد 
حيث تعاونت الوكالة مع اتحاد البيانات اللغوية Linguistic Data Consortium)‏ أو 
(LDC‏ لإنشاء قاعدة البيانات التى حوت SAY‏ صفحة مكتوبة dul lazo‏ شملت 
وثائق عربية أصلية (رمّزت وقطعت إلى أسطرء ومسحت pò‏ بدقة ٠٠١‏ نقطة في 
البوصة» ووسمت أجزاؤهاء وترجمت نصوصها إلى الإنجليزية). 
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مصادر الوثائق حوت (à‏ الغالب- من الأخبار والمدونات الإلكترونية. وقد 
أقيمت مؤخرا مسابقات [V Y] NIST-OpenHaRT)‏ للتعرف على أسطر نصية» وقد 
أتيحت جزئيا لبعض الباحثين» ولكن ما تزال أكثر توزيعاتها وأساليب مقارنة النتائج 
سرية فيها [ 1527/71/7 ]. 


IFN/ENIT قاعدة بيانات‎ 4, A 

تعاون كل من معهد تكنولوجيا الاتصالات Institut für Nachrichtentechnik)‏ 
أو (IFN‏ في جامعة براونشفايغ التقنية (Technische Universität Braunschweig)‏ 
في ألمانيا مع المدرسة الوطنية ال هندسية في تونس Ecole Nationale d’ Ingénieurs de)‏ 
Tunis‏ أو (ENIT‏ لإخراج ما كان حينا من الدهر المرجعية الأكثر شيوعًا لتقرير نتائج 
بحوث التعرف على النصوص العربية المكتوبة بخط اليد ]£ SEV‏ وقد يرجع السبب في 
انتشارها لتوفرها Lle‏ منذ نشأتها ولنشاط منشئيها في خدمتها وعقد المسابقات عليهاء 
فقد تم استعمال قاعدة IFN /ENIT‏ في مسابقات عديدة للتعرف الآلي على النصوص 
العربية» عرضت نتائجها في مؤتمرات مهمة [5/ا-94/ا]. 

تتكون هذه القاعدة من صور مكتوبة بخط اليد لأساء ٩۳۷‏ مدينة وبلدة تونسية 
(أي Vel‏ تضمنت معلومات للخدمة البريدية في الأصل) مقسمة إلى سبع مجموعات 
A. B. C. D. E. F. S)‏ بعد إضافة المجموعتين F‏ و5 مؤخرا). وتعتبر مجموعة 5 الأكثر 
صعوبة لأنها لم تجمع في نفس بيئة بقية المجموعات» فتضمنت أناطا كتابية مختلفة عن 
الجموغات الاي 

84 ,£ قاعدة يانات «(خط» 

KFUPM Handwritten Arabic TexT database) (Ja? قاعدة بيانات‎ T 
JS) شخص‎ ٠٠٠١ حيث تحوي فقرات كتبها‎ WA 12 H بالكتابة‎ (KHATT أو‎ 
منهم كتب أربع فقرات» اثنتان منها نصهم| موحد).‎ 

تحوي القاعدة صور الفقرات مقطعة على مستوى أسطر النصوصء وتنقسم إلى 
ثلاث جموعات: جموعة التدريب £A* A)‏ سطرا)» وجموعة التطوير AY V)‏ سطرا)» 
ومجموعة الاختبار SUO‏ سطرا). 


5 3 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
n—UuUÓ L|‏ 


5,١٠‏ جدول قواعد بيانات الكتابة العربية اليدوية 


نلخص في الجدول أدناه وصف وعدد كتاب بعض قواعد البيانات المذكورة آنفا. 


جدول :)١(‏ ملخص بعض قواعد بيانات الكتابة العربية. 


مختصر اسم قاعدة البيانات 
ay‏ وفك ص عدد الكتاب 
مع إحالة مرجعية ١‏ 
۲١, £04| — IFN/ENIT[VÉ]‏ صورة لأساء مدن وبلدات تونسية ١‏ 
V,‏ صورة كلمة و ٠١,٠٠٠‏ ة عدد 
الإسراء oro dd . redii Al-Isra [3v]‏ 
و٠٠٠۲‏ صورة توقيع و0500 صور لحمل 
٠ .‏ على 
٩, ۳ MADCATI[£ Y]‏ صور لصفحات من وثائق أخبار وغيرها : 
1 الأقل 
شکات ف ال |= 5 
es da 2‏ الرا جحي trn‏ صورة لقيم شيكات بالارقام والحروف = 
CENPARMI[Vv]‏ 
٠١ AHDB [1A]‏ صورة لمصطلحات شيكات مصرفية EE‏ 
Khedheretal.[£]‏ | صورحروف ^£ 
+٠‏ صورة ١١, ٤۳۹و sb ey‏ 
العمري صورةلأرقام (سلاسل عددية) و YV EY‏ صورة m‏ 
Alamri et al.‏ ]14[ الحروف YVos‏ ١١صورة‏ لكلمات و٠55١‏ 
صورة لرموز كتابية خاصة وعلامات ترقيم 
الأرقام العربية i‏ 
ر م العربي 00٠٠‏ صورة لأعداد Ves‏ 
ADBase [V*]‏ 
قاعدة بيانات 0٠ chan‏ صورة نموذج و ٠,٠٠٠‏ صورة لفقرات í‏ 
 KHATT[wA*]‏ اأكتابة حرة 


وبعد تعرفنا على بيانات الاختبار نستطيع تقديم مقارنات لأنظمة التعرف الآلي 
على الكتابة اليدوية العربية الأبرز في البحوث العلمية» وتقارير نتائجها حسب قواعد 
البيانات التى اخشيرت عليها. 


EX 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OOO‏ 


Y‏ ,£ مقارنة أهم بحوث المجال 

نلخص هنا أهم البحوث المنشورة في Jle‏ التعرف JYI‏ على النص العربي المكتوب 
بخط اليد. وسنقسم مناقشتنا إلى ثلاث مجموعات: الأولى لأهم بحوث التعرف على 
الأعداد والمحارف المنعزلة» والتعرف الكلى على أجزاء الكلمات العربية» ومحاولات 
مبكرة للتعرف على الكلمات كليا أو التعرف القائم على التقطيع الصريح. والمجموعة 
الثانية لأهم البحوث التي اعتمدت في تدريبها وتقييمها على قاعدة [V£] IFN /ENIT‏ 
وذلك لما تتسم به هذه القاعدة من أهمية وشعبية من جانب» ولأنها محدودة الكلمات, ما 
يمكن من التعامل معها بأسلوب خاص. والمجموعة الثالثة لأهم بحوث التعرف QVI‏ 
على الصور النصية التى تحوي عدة كلمات ذات الخصائص اللغوية المفتوحة (ليست 
كلمات محدودة كما في قاعدة (IFN /ENIT‏ 


Y‏ أهم بحوث التعرف على الأعدادء والمحارف. والكلمات» وأجزاء الكلمات 
المنعزلة 

نقدم في جدول Laz Y‏ للأعمال المتعلقة بالتعرف على الأعداد والمحارف المقطعة 
والكلمات وأجزاء الكلمات العربية. يتيح الجدول المقارنة بين أداء أعمال ممثلة في هذا 
المجال» حيث ترتبط الجوانب الرئيسية لفاعلية التعرف بالمعالجة المسبقة» والملامح 
والمصنفات. 

يعد التعرف على الأعداد المكتوبة بخط اليد أحد أسهل مهام التعرف إذ أن الأصناف 
فيها (من ٠‏ إلى 4) قليلة. لذلك» نجد تقارير عن نسب نحاج بمعدل 6*1[ أي 
أنبا «مشكلة محلولة». Gl‏ التعرف على الأرقام (أي السلاسل التي تحوي عدة أعداد) 
حيث قد تتلامس الأعداد المتجاورة فا زالت اشكل تحديا وتحتاج مزيد حل [AM‏ 
وأهم تطبيقات التعرف على الأعداد والأرقام هي قراءة السندات المصرفية آليا. 

يشبه التعرف على الأعداد سهولة التعرف على المحارف المنعزلة؛ حيث تكمن أهم 
التحديات في التعرف على المحارف التي تتشابه أو تشترك في الشكل وتختلف في النقط. 
رارع يكم عدار Jod vede Ie ot‏ ننه القع xad i-a ed‏ 
أن استخدامات الحروف المعزولة عمليا محدودء ربها كانت أهم تطبيقاته هي القراءة 
الآلية للرموز البريدية في البلدان التي تعتمد الحروف العربية المنعزلة هذه الرموز. 


Ed 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
ييا 


وأما التعرف على الكلمات العربية -كليا أو بشيء من التقطيع- فلا تكاد تنجح إلا 
عندما يكون مجال المفردات الكلي هذه الكلمات محدودّاء كما في مهام التعرف على أسماء 
مدن أو قيم مكتوبة خطيا. 

نعرض في جدول Y‏ بعض المساعي للتعرف على على cole I‏ والمحارف» والكلمات» 
وأجزاء الكلمات العربية المتصلة دون تقطيع يذكر. 


جدول (Y)‏ بحوث في التعرف على الأعدادء والمحارف» والكلمات» وأجزاء الكلمات العربية المتصلة. 


ارس هلف نتائج التعرذ قاعدة البيانا inb‏ 
te‏ 0010 5 ف - 
pie e un 65067‏ المختصرة 
Alamri et‏ التعرف | *نسبةالخطأ *صورأعدادمن2 | SVMeUz*‏ 
89 اعلى في التصنيف قاعدة CENPARMI‏ | نواته Radial‏ 
]^^[ الأعداد AP:‏ للشيكات العربية Basis‏ 
والأرقام للأعداد غير - Function YE, VAE‏ 
ذات المتلامسة صورة للتدريب | * ملامح تدرجية 
الأعداد peu‏ - 5,149 صورة * خوارزمية 
المتلامسة في التصنيف قواعدية 
li 7N , V^‏ . لفصل الأعداد 
للأعداد uem‏ المتلامسة 
المتلامسة لوقام فيها 
من الأعداد 
axi]  Awaidah‏ | *نسبةالخطأ * قاعدة من * ناذج ماركوف 
and‏ على في التصنيف ۰ صورة الخفية المنفصلة 
Mahmoud‏ | الأعداد Le, AY‏ بيد ££ كاتبا * ملامح التدرج 
٠٠١9150[‏ | (منفصلة) - ١06840‏ صورة والتقعر 
es v‏ 
* تقسم الصورة 
AE‏ لعسم ر 
اس نلق إلى إطارات 
لكل منها نفس 
عدد العناصر 
الصورية تقريبًا 


—é— 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
EE aca‏ 


pee هدف نتائج التعرف قاعدة البيانات‎ uui 
المختصرة‎ B c النظام‎ e مرجع‎ 
التعرف | *نسبةالخطأ * صور أعداد »تم استعمال‎ ١ Mahmoud 
في التصنيف من قاعدة ۳ أنواع من‎ de | andAl- 
المصنفات:‎ CENPARMI الأعداد 6 عند‎ | Khateeb 
ee B (منفصلة) استخدام للشيكات العربية:‎ ۲١٠١ [AY] 
ا - ۷,۳۹۰ صورة ماركوف‎ 
للتدريب الخفية‎ Haaa 
HMMs | وم.,م#صورة‎ | CÓ 
عند 5 - آلات‎ ٣۹ 
dics ee استخدم‎ 
SVM الدعم‎ see ماركوف‎ 
»نسبة الخطأ‎ 
ا - الجيران‎ 
EM عند‎ f, Yo 
T ١ استخدام الجارا‎ 
اخيرات الدب د‎ 
E = 
ماخوذة من‎ 
مرشح «جابر»‎ 
اللوغاريمي‎ 
(Log Gabor) 
بمقاييس‎ 
وتوجهات‎ 
المختلفة‎ 


ت 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
n— 5‏ 


gita PAE T‏ التمرف ٠ auia | ٠‏ سات النظام 
070 النظام à c‏ المختصرة 
Cherietet‏ | التعرف | *نسبةالخطأفي | * صورأجزاءكلات | *ناذج ماركوف 
7 إعللى التعرف على معزولة من قاعدة |( الخفية المنفصلة 
[^Y]‏ الكلمات١‏ «أجزاء الكلمات | CENPARMI‏ - على مستوى 

أجزاء العربية» كانت للشيكات العربية: «أجزاء 
الكلات ٩۷ - ARTES‏ نوع من الكلات 
العربية أجزاء الكلمات العربية) 
كليا (PAWs)‏ 
- أعداد مراحل 
السلاسل 
تعتمد على 
أعداد حروف 
«أجزاء 
الكلات» 
Dehghan et‏ التعرف * نسبة الخطاً ۷,٠٠‏ كلمة ناذج ماركوف 
us de | ۲۰۰۱.1‏ مكتوبة بخط اليد الخفية المنفصلة 
[Y]‏ الكلمات /Y£,40‏ لأسماء ٠۹۸‏ مدينة | سلسلة لكل 
quis‏ - أعداد مراحل 
- 4 للتدريب السلاسل 
٤١ -‏ للتقييم تعتمد على 
معدل عرض 
صورة الكلمة 


4 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
EE aca‏ 


اا نتائج التعرف | قاعدة الا | سات النظام 
00 النظام c‏ 5 المختصرة 
all] 64‏ | *نسبةالخطأ ٠٠‏ كلمة * ناذج ماركوف 
eta ۲‏ على التقريبية مكتوبة بخط ٠٠١١‏ | الخفية المنفصلة 
]£^[ الكليات للكليات: كاتب - سلسلة لكل 
aae - eget Us‏ الكليات كلمة 
استدراكها إلى المختلفة £V‏ - أوائل المرحل 
١‏ بالمعالحة - s Li olli‏ 
وثلث للتقييم | الكلمات إلى 
مجموعات 
أولية 
Farah et al.‏ | التعرف iiie‏ كلمة t‏ عدة نظم 
de | Y**3Ao]‏ التقريبية مكتوبة بخط ٠٠١‏ تصنيف تجمع 
الكلات للكليات: 7/5 كاتب نتائجها لإصدار 
كليا - sae‏ الكلات الحكم النهائي 
المختلفة EA‏ - شبكات 
١,56.‏ عصبية 
للتدريب اصطناعية» 


-£ív- 


هذه الطبعة إهداء من المركز 


ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
n—UuUÓ L|‏ 


IFN /ENIT.—-UL, أهم بحوث التعرف على قاعدة‎ SY 


يقدم جدول Y‏ بيانات لأهم البحوث التي اعتمدت قاعدة بيانات IFN /ENIT‏ 
ونلاحظ أن استخدام المصنفات المستندة إلى ناذج ماركوف الخفية HMM‏ هي النهج 
السائد هذه الفئة. بجانب التحديات التقليدية للمعالجة المسبقة» وتطوير الملامح» 
والاستخدام الفعال للمصنفات؛ يجب أن يقرر المتعامل مع كلمات قاعدة بيانات / IFN‏ 
ENIT‏ وحدات النمذجة التي سيعمل عليها (الأحرف أو المحارف أو أجزاء المحارف» 


أو الكلمات. أو أجزاء الكلات). 
جدول (۳): بعض أهم بحوث التعرف على كلمات قاعدة بيانات AEN /ENI‏ 
أجزاء القاعدة t‏ 
diis n‏ 
المستعملة ae‏ سات UxJI‏ 
جع النظا التعرف Juan‏ ملاحظات 
pe M Page 3 Er‏ المختصرة 
والتقييم id‏ 
Menasri et‏ * نظام هجين من 
al. Y-*v[t£v]‏ = نماذج مارکوف 
الخفية 
- والشبكات 
UE ^ ۲,٦ abc-d‏ 
الاصطناعية 
* مبني على التقطيع 
الصريح 
cot Benouareth‏ ماركوف الخفية 
et al. Y**A‏ شبه-المتصلة 
abc-d Dv]‏ ۸° - سلسلة بعدد ثابت 
Je ullo»‏ لكل 
حرف 
abcde-f Schambach‏ ۸ ا *ثلاث ناذج ماركوف النظام الفائز في 
PET‏ للتعرف على المحارف | ICDARY:*V‏ 
[vu] 1*1 abcde-s [££]‏ 


—$$— 


هذه الطبعة إهداء من المركز 


ولا يسمح بنشرها ورقياً أو تداولها تجارياً 
OOO‏ 


ملاحظات 


أجزاء القاعدة 
المستعملة 
للتدريب- 


«Xl 


أصحاب النظام 
الفائز آنفا في 
۰۰0 11ظ1 
[ve]‏ 


e‏ عدة gòl‏ ماركوف 
متصلة للتعرف على 
المحارف والفراغات 
البيضاء 

* تنفيذ فكرة النوافذ 
المنزلقة المائلة إضافة 
إلى العادية 


abc-d 


Al-Hajj et al. 
AA] 


* نماذج ماركوف 
متصلة للتعرف على 
المحارف والفراغات 
البيضاء 

* تمت الاستعانة 
بتحويرات صورية 
لزيادة تنوع صور 
التدريب 

* إمكانية التأقلم على 
خط معين متاحة 

* الملامح مبنية على 
شرائح الصور 

* استخدام خوارزمية 
«تحليل المكونات 
الرئيسية» Principal)‏ 
component‏ 


(analysis (PCA) 
لتقليل عدد الملامح‎ 


abc-d 


Ys YY 


abcd-e 


Dreuw et 


al. Y**Aand 
Y a[Yo][oY] 


—£o- 


هذه الطبعة إهداء من المركز 


ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
n— 5‏ 


سات النظام 
المختصرة 


أجزاء القاعدة 
المستعملة 
للتدريب- 


* ناذج ماركورف 
متعددة الروافد 

* ملامح كنتورية ومن 
العناصر الصورية 

* كل ملمح يعبر في 
رافد مستقل 


Yo,£4 


abcde-s 


Kessentini et 


al. Y» V [Y] 


* ناذج ماركورف 
الخفية شبه-المتصلة 
الا 

5 ملامح من العناصر 
الصورية 

* التدريب بخوارزمية 
Viterbi‏ 


abc-d 


Pechwitz et 


al. Y YY[£M 


* ناذج ماركوف Lb‏ 
المتصلة للمحارف 
° التأقلم التلقائي على 


abc-d 


Natarajan et 


al. Y* VY [A] 


s‏ ا «تحليل 
المكونات الرئيسية» 
(PCA)‏ لتقليل عدد 
c‏ 


abc-d 


Rothacker 


and Fink 
Yey [AS] 


صاحب النظام الفائز 
في مسابقة ICDAR‏ 


Y** 4[AV] 


* شبكة عصبية متكررة 
(نواة تعلم عميق) 

* بنية ثنائية للذاكرة 
قصيرة المدى طويلة 

* ملامح من العناصر 
الصورية 


abcde-f 


۸,۹٤ 


abcde-s 


Y: YY Graves 
[me] 


- 6 


هذه الطبعة إهداء من المركز 


ولا يسمح بنشرها ورقياً أو تداولها تجارياً 
OOO‏ 


" أجزاء القاعدة‎ 
linh 2 
ت النظا‎ id المستعملة‎ 
ملاحظات‎ Sube M T مرجع النظام‎ 
للتدريب- 1 المختصرة‎ 
ي‎ NP 
التدريب على »نظام هيكلي‎ Parvez and 
2 اجار‎ nun ° ١ icd Mahmoud 
noe Ys Y | IENIENIT | FIA] 
ربة المضلعات‎ 
الضبابية‎ de والتقييم‎ 
abcd-e 
ماركوف‎ exo عدة‎ * YS Y abc-d Azeem and 
2. s ia 1,01 abcd-e Ahmed v «Y 
المحارف والفراغات‎ : 
ERARE 1,4 abcde-f m 
عرضها‎ 
ملامح التدرج‎ e 
والتقعر‎ 
إعادة تنفيذ فكرة‎ * Yo, Y abcde-s 
النوافذ المنزلقة المائلة‎ 
إضافة إلى العادية‎ 
[Y4] 
أصحاب النظام‎ ١ ناذج ماركوف الخفية‎ * ۷ abc-d Giménez et 
Pe "us 1, abcd-e al. Y S£[4*] 
y ناصر‎ |: 8 
ed C V,A' abcde-f 
[VA] الصورية الثنائية‎ 
yo, YA abcde-s 
شبكة عصبية متكررة‎ * PEE: abc-d Abandah et 
ho end 65 abcd-e al. Y» Y£ p] 
بنية ثنائية للذاكرة‎ * 
ib قير الملا‎ >,” abcde-f 
posee 
عدة ملامح متنوعة‎ * ١0 abcde-s 


-fv- 


هذه الطبعة إهداء من المركز 


ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
n— 5‏ 


أجزاء القاعدة t‏ 
diis n‏ 
المستعملة ` سات النظا 
النظا فى التعرف f‏ ملاحظات 
t cur‏ للتدريب- x‏ المختصرة 
r‏ ال کا 
وا x m‏ 
VA abcde-f Hamdani et‏ * شبكة عصبية متكررة | عرضوا النظام الفائز 
al. Y \ £ [v4]‏ مع ا ماركوف ICPHR uS‏ 
الخفية المتصلة 
[v]‏ 2 1 
[Va] Y* VY TRUE‏ 
العناصر الصورية 
الرمادية 
* استخدام «تحليل 
abcde-s‏ £0 ,0\ المكونات الرئيسية» 
(PCA)‏ لتقلیل عدد 
الملامح 
9 تم استخدام 
Viterbi ijl >‏ 
a‏ 
Vatt abc-d Ahmad et al.‏ * باذج ماركوف 
abcde TITTY‏ 6,00 الخفية المتصلة متعددة 
]64.0۰[ الروافد 
NT eu? 346 abcde-f‏ 
المحارف (تحت- 
المحرف أو sub-‏ 
(characters TET bd‏ 
abcde-s‏ 
i‏ وللفراغات البيضاء 
وللتطويل بين 
الحروف 
co ١7 abc-d Ahmad and‏ ماركوف 
Sadana m 0,۷ abcd-e Fink [oY]‏ 
الروافد 
AE abcde-f‏ * فصل الكتابة عن 
abcde-s‏ ه5١‏ النقط والتشكيل 


dA 


هذه الطبعة إهداء من المركز 


ولا يسمح بنشرها ورقياً أو تداولها تجارياً 
OOO‏ 


أجزاء القاعدة 


io 
النظا‎ ce i. s المستعملة‎ 
حظات‎ f النظا التعرة‎ 
s E 0 [Aa xl eue. g للتدريب-‎ f ew 
الكلمي‎ zm 
i والتقييم‎ 
p نماذج ماركوف الخفية اعافد‎ * o Jas wei Stahlberg 
مع التعلم العميق باختلاف‎ ديزتو,٤‎ and Vogel 
تبدأ من للتدريب تكوينات الملامح‎ be 061 
وتزيد * تقطيع ضمني واستراتيجيات‎ "١ GBS 
تبدأ من ماركوف اخفية تهيئة‎ abcde-f 
5 y وتزيد لله‎ 1 E ^ 
الملامح ا‎ e. 
العناصر الصورية‎ 
الرمادية‎ 
استخدام «تحليل‎ * ١ تبدأأمن‎ 
المكونات الرئيسية»‎ 13,0 abcde-s 
لتقليل عدد‎ (PCA) وتزيد‎ 
pu 
أقلمة التدريب لخط‎ * 
الكاتب المعين‎ 


٠, ۳‏ أهم بحوث التعرف JI‏ على كلمات حرة 
وأخيراء نعرض في جدول ٤‏ نتائج أنظمة التعرف على نصوص الصور التي تحوي 
عدة كلمات حرة. فالفرق بين ما ههنا وما قبله أن هذه بمقدورها الاعتماد على نماذج 
لغوية عامة لتحسين النتائج. علاوة على ذلك» فبعض الأنظمة هنا تعالج صورا تتضمن 
عدة أسطرء نما يضفي بعدا آخر مهما للمسألة» وهو تقطيع الأسطر ضمنيا. 
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هذه الطبعة إهداء من المركز 


ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
n—UuUÓ L|‏ 


جدول ٤‏ بعض أهم بحوث التعرف على الصور التي تحوي عدة كلمات حرة. 


مرجع النظام bees‏ قاعدة البيانات المستعملة سات النظام المختصرة 
l VAENE Saleem et‏ قاعدة مشروع تحليل * سلاسل ماركوف المتصلة 
al. Y**4‏ وترجمة وتصنيف * العديد من الملامح» وتم 
]4[ المستندات متعددة اللغات تقليص عددها Uf‏ 
Aas deti pon‏ 
Yos‏ وثيقة للتدريب | المحارف ومن ثم 
١‏ وثيقة للتطوير الاك 
١‏ وثيقة للتقيين Sun Sa‏ 
مداها Y‏ أحرف قدرت 
من مدونة نصية قوامها 
١‏ مليون كلمة عربية 
AY)‏ ألف كلمة بحذف 
التكرار) 
Natarajan‏ / قاعدة «مشروع تحليل * سلاسل ماركوف المتصلة 
et al. Y*YY‏ وترجمة وتصنيف * العديد من الملامح» وتم 
]^[ المستندات متعددة اللغات 


تقليص عددها UT‏ 

e‏ المدف: التعرف على 
المحارف ومن ثم 
الكليات 

* إمكانية التأقلم على خط 
كاتب معين 

* استخدمت ناذج لغوية 
مداها Y‏ أحرف قدرت 
من مدونة نصية قوامها 
۷ مليون كلمة عربية 
٠٠١(‏ ألف كلمة بحذف 
التكرار) 


«UT‏ للأحرف» وتشمل: 

9 و۳۷ وثيقة 
للتدريب 

O‏ ۸ وثيقة للتطوير 


Moe‏ وثيقة للتقييم 


— 0% 


هذه الطبعة إهداء من المركز 


ولا يسمح بنشرها ورقياً أو تداولها تجارياً 
OOO‏ 


النظا pus‏ قاعدة السيانات المستعملة ت النظام المختصرة 
مرجع TERT e‏ عدة البيانات سات م المختصرة 
7Y£,Y | Hamdani et‏ مشروع تحليل وترجمة * سلاسل ماركوف المتصلة 
۳ .اه للتعرف المقيد وتصنيف المستندات * الملامح à‏ منت العناصر 
]14۲ على ٩۰‏ آلف متعددة اللغات Uf‏ الصورية الرمادية 
١ T |‏ ألف صفحة ne‏ المكونات 
لتكرار للتدريب الرئيسية» (PCA)‏ لتقليل 
1 / 
n £V, l n‏ ة للتطوير عدد الملامح 
للتعرف بدون m j*‏ م التعرف المقيد 
ودع cds Yet‏ التدريب كنموذج 
ألف كلمة بدون 1 . 
PR i‏ لغوي بين| يستخدم 
n‏ التعرف غير المقيد مدونة 
/7YY,o‏ قاعدة olL‏ خط) نصية من مليار كلمة 
تعر ف المقيد ;3 
fete‏ و uu hus‏ 
على Yo‏ آلف 
. للتدريب 
كلمة بدون ` 
التكرار ا ا 
l‏ للتطوير 
ASA‏ ۰ و۹۷ ,۱ سطرا للتقييم 
قيود على ٠٠١‏ 
ألف كلمة بدون 
التكرار 


ت 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
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النظا E‏ قاعدة البيانات المستعملة سات النظام المختصرة 
220 التعرف الكلمى 
4YWV,^ Hamdani et‏ قاعدة بيانات مشروع * التعلم العميق BLSTM)‏ 
al. 1٤‏ للتعرف JA‏ تحليل وترجمة وتصنيف مع (RNNS‏ جنبا إلى 
[YA]‏ على 45 آلف | المستندات متعددة اللغات ٠‏ جنب مع سلاسل 
كلمة بدون | آليا ماركوف المتصلة 
التكرار ١‏ ألف صفحة * الملامح تضمنت العناصر 
ca yai INV, °‏ الصورية الرمادية 
uh don‏ | #و افر ابل اكرات 
n‏ الرئيسية» (PCA)‏ لتقليل 
i‏ عدد الملامح 
* يستخدم التعرف المقيد 
كلمات التدريب كنموذج 
لغوي es‏ يستخدم 
التعرف غير المقيد مدونة 
نصية من مليار كلمة 
تقريبا 
* إمكانية التأقلم على خط 
معين 
Hamdani et‏ 434,4 قاعدة بيانات مشروع e‏ نظام هجين من التعلم 
al. 1€‏ تحليل وتر هة وتصنيف العميق ونماذج ماركوف 
[Y]‏ المستندات متعددة اللغات الخفية 


* الملامح تضمنت العناصر 
الصورية الرمادية 
IGAT‏ 
احرف محسوب من 8٠١‏ 
ألف كلمة (بدون التكرار 
محسوبة من مدونة نصية 
من مليار كلمة) 


آليا 

,ألف صفحة 
للتدريب 

".و0 ؛ صفحة للتطوير 


و" صفحة للتقييم 
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هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OOO‏ 


مرجع النظام prt‏ قاعدة البيانات المستعملة سمات النظام المختصرة 
Cao et al.‏ قاعدة بيانات مشروع * سلاسل ماركوف المتصلة 
Y*V£[Y&]‏ تحليل وترجمة وتصنيف *عدة ملامح من ضمنها 
المستندات متعددة اللغات مرشحات «جابر» 
E‏ * إمكانية التأقلم على خط 
7v , $‏ * مجموعة11151 ida‏ 
OpenHaRT 1*1‏ * تېجین عدة أنظمة 
ري ا لفحسين الاج 
5١1 *  Bluche et al.‏ قاعدة بيانات مشروع * نظام هجين من التعلم 
yeye [n]‏ للتعرف المقيد | تحليل وترحمة وتصنيف العميق ونماذج ماركوف 
۸,9 المستندات متعددة اللغات الخفية للتعرف على 
للتعرف غير آليا المحارف 
المقيد * الملامح هي العناصر 
الصورية 
"يتم التعرف بعد ٤‏ 
مسوحات من الجهات 
الأربعة 
* التدريب على كلمات 
منعزلة ثم على أسطر 
Ee a‏ 
احرف محسوب من 1١‏ 
ألف كلمة 


* يستخدم التعرف المقيد 
eus‏ التدريب كنموذج 
es c‏ يستخدم 
aae‏ غير اشد مددؤلة 
نصية من مليار كلمة 
تقريبا (GigaWord)‏ 


- 
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ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
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النظا juges‏ قاعدة البيانات المستعملة ت النظام المختصرة 
مرجع RP e‏ عدة البيانات سمات ١‏ م المختصرة 
Moysset et‏ 6 قاعدة بيانات مشروع * نظام هجين من التعلم 
al. Y€‏ تحليل وترجمة وتصنيف العميق ونماذج ماركوف 
[Y]‏ المستندات متعددة اللغات الخفية للتعرف على 
UT‏ من ٩,۷۲۹‏ منطقة المحارفء والكلمات» 
نصية وأجزاء الكليات العربية 
a ab NA‏ قي اي 
á |‏ 
للتدريب لصورية 
اعورم nn MENS‏ 
حار“ | 5 
للتطوير e‏ 
الأربعة 


* التدريب بدأ بالكلمات 
الأدق ثم الأقل دقة ثم 
بتحويرات صورية على 
الصور الأصلية 
للأسطر 
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هذه الطبعة إهداء من المركز 


ولا يسمح بنشرها ورقياً أو تداولها تجارياً 
EE EN‏ ااا 


النظا ا قاعدة البيانات المستعملة ت النظام المختصرة 
مرجع RM e‏ عدة البيانات سات م المختصرة 
/Y*,4 | BenZeghiba‏ عند قاعدة بيانات من مشروع * نظام هجين من التعلم 
7٠١1١6 etal‏ | استعال le‏ | تحليل وترجمة وتصنيف العميق ونماذج ماركوف 
[o^]‏ لغوية من ٤‏ المستندات متعددة اللغات الخفية 

أحرف لأجزاء J|‏ دنات لخوية لأشهر 

الكلمات ۳,۰ سطرا الكلمات» وأجزاء 

cadi xe IY Y‏ ا تاي 

استعمال ١,١55 ٠ | gle‏ سطراللتطوير 

لغوية من ١‏ | ۲,۰۹۳۰ سطرا للتقییم 

وأجزاء الكلمات 

۳ عند قاعدة بيانات خط 

TE 

£,£YA* pee‏ سطراللتدريب 

لغوية من ٤‏ 

اح O SIR‏ سطراللتطوير 

الكلات * سطرا للتقييم 

BAR 

لغوية من ۲ 

وأجزاء الكلمات 
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ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
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مرجع النظام n»‏ قاعدة البيانات المستعملة cte‏ النظام المختصرة 


ee بين ۵ , 772 | قاعدة بيانات خط * التعلم العميق‎ Stahlberg 


Y, 1‏ مارک 2122s‏ 
٩, ۰ 9 E‏ سطرا للتدريب ركوف احتف 


النظام * , سطرا للتطویر 
6 ,۱ سطرا للتقييم 


s‏ الملامح تضمنت العناصر 
الصورية الرمادية 

* «تحليل المكونات 
الرئيسية» (PCA)‏ لتقليل 
علد الملامح 

* إمكانية التأقلم على خط 
كاتب معين 

* نموذج لغوي ثلاڻي 
الأحرف مستتتج من 
بيانات التدريب في قاعدة 
بيانات Gaz»‏ 


ه- أبرز أوعية النشر في جال التعرف الآلي على النصوص المكتوبة 

إن التعرف على النصوص المكتوبة -بها في ذلك التعرف على النص العربي- كا هو 
من فروع الذكاء الاصطناعيء فهو أحد تطبيقات مجال التعرف على الأنماط Pattern)‏ 
Ai (Recognition‏ فإن كثيرا من نشاطات المجال العلمية تقع ضمن اختصاصات 
الرابطة الدولية للتعرف على International Association for Pattern) PUN!‏ 
Recognition‏ أو IAPR)‏ وهي رابطة دولية تجمع coded‏ العلمية والمهنية غير 
الربحية ذات العلاقة» وهى تعتمد منظمة واحدة فقط من كل دولة يشارك عبرها 
الأفراد المهتمون بأنشطتها. وفيا يلي ثبت بأبرز المؤتمرات والمجلات المتعلقة بالرابطة 
ار را cce‏ يكن ف ill oa pali o c pi Mill co peli‏ 
المكتوبة بخط اليد فيهاء نقسمها إلى مؤتمرات ومجلات علمية. 
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هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
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o, Y‏ أهم مؤتمرات المجال الدولية 

تنبع أهمية حضور المؤتمرات المتخصصة والنشر فيها من كونما بيئة مكثفة لتلاقح 
الأفكار وفرص النقاش والتعرف على أحدث النشاطات وأنشط الباحثين في المجال. 
كما آنا قد تشكل مسارت نشر سريعة للأفكار الجديدة» حيث لا تحتاج لنفس درجة 
التمحيص والإثباتات التى تشترطها المجلات. لذاء فقد ارتأينا إثراء الباب بنبذ عن 
بعض أهم المؤتمرات التي قد تهتم بمناقشة القراءة الآلية. 


١ه‏ المؤتمر الدولي لحدود التعرف على خط اليد 

إن المؤتمر الدولي لحدود التعرف على خط اليد International Conference)‏ 
on Frontiers in Handwriting Recognition‏ أو (ICFHR‏ موقر رئیسی لبحوث 
وتطبيقات التعرف على خط اليد يجمع خبراء من الأوساط الأكاديمية واناد 
لتبادل الخبرات وتعزيز البحث المشترك وتطويره. 

يوفر هذا المؤتمر ملتقى للباحثين في مجالات التعرف الفوري والمتراخي» وواجهات 
التعامل بالقلم» ومعالجة الناذج والاستبيانات آلياء ومكتبات الخط الرقمية» والوصول 
واستعادة مستندات الإنترنت. تتبنى الرابطة الدولية للتعرف على الأناط هذا المؤتمر 
برعاية لجنتها الفنية (أنظمة القراءة). إذ تقام فعاليات المؤتمر مرة كل عامين (للأعوام 
الزوجية)» وقد كان آخر انعقاد له عام ٠١١1‏ في منطقة شلالات نياغارا بالولايات 
المتحدة الأمريكية» وسيكون انعقاده القادم عام 7٠١٠١‏ في cu og»‏ ألمانيا -إن 
شاء الله-. يتم نشر البحوث المقبولة من قبل المؤتمر بواسطة معهد مهندسي الكهرباء 
والإلكترونيات IEEE)‏ 


۲ ره SU‏ الدولي لتحليل الوثائق والتعرف عليها 


ربا تعد سلسلة المؤتمرات الدولية لتحليل الوثائق والتعرف عليها International)‏ 
Conference on Document Analysis and Recognition‏ أو (ICDAR‏ الأنجح 


في المجال» إذ هي أكبر تجمع dos‏ ورئيس للباحثين والعلاء oe olo‏ في مجتمع تحليل 
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ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
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يوفر هذا المؤتمر منصة بارزة لمناقشة وتشجيع وتبادل الآراء حول أحدث التطورات 
في تحليل المستندات وفهمها واسترجاعها وتقييمهاء حيث يشمل مصطلح «المستندات» 
عندهم أنواعا ختلفة من الوثائق: ابتداء من أوراق البردي التاريخية» ومرورا بالمستندات 
الورقية» إلى الصور الملتقطة بالكاميرا حتى المستندات الحديثة متعددة الوسائط. 

تمت المصادقة على هذا المؤتمر من قبل اللجنة التقنية العاشرة للرابطة الدولية للتعرف 
على الأناط IAPR‏ (التعرف على الأشكال الرسومية) واللجنة التقنية الحادية عشرة 
(أنظمة (Gel JI‏ وكان المؤتمر قد تأسس منذ ما يقرب من ثلاثة عقود» وهو يقام حاليا 
مرة كل عامين. عقد مؤتمر ICDAR‏ الأخير عام 7١117‏ في كيوتو باليابان. وسيعقد 
القادم عام ٠١١4‏ في سيدني بأستراليا -إن شاء الله تعالى-. يتم نشر بحوث المؤتمر 
وإصداراتهم بواسطة معهد مهندسي الكهرباء والإلكترونيات (IEEE)‏ 


V, Y‏ وه ورشة العمل الدولية لأنظمة تحليل المستندات 

ورشة العمل الدولية لأنظمة تحليل المستندات International Workshop on)‏ 
Document Analysis Systems‏ أو DAS)‏ بو i‏ مهمة أيضا لبحوث التعرف على 
النصوص المكتوبة بخط اليد. تقام ورشات العمل هذه كل عامين» وقد عقدت آخرهن 
-حتى كتابة هذا الكتاب- عام ۲٠٠۸‏ في فيينا في النمساء وستعقد ورشة العمل التالية 
عام ۲۰۲۰ في ووهان في الصين -إن شاء الله-. 


٤‏ و١‏ وه المؤتمر الدولي للتعرف على الأنماط 

المؤتمر الدولي للتعرف International Conference on Pattern) (oy (Je‏ 
(ICPR Í Recognition‏ من أقدم المؤتمرات المرعية من 3( IAPR‏ ومن أرسخها 
في مجال التعرف على الأنماط عموما. يرحب المؤتمر بالموضوعات المتعلقة بالتعرف على 
النصوص المكتوبة بخط اليد ضمن اهتاماته. ويعقد المؤتمر كل عامين. كان انعقاده 
الأخير (الرابع والعشرون) عام ۲٠٠۸‏ في بكين بالصين» وسيعقد المؤتمر الدولي الخامس 
والعشرون-إن شاء الله- عام ٠١٠١‏ في ميلانو إيطاليا. 
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هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
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5 ,ه الورشة الدولية لتحليل النصوص العربية ومشتقاتها والتعرّف JII‏ عليها 
الورشة الدولية لتحليل النصوص العربية ومشتقاتها والتعرّف JYI‏ عليها 
International Workshop on Arabic and Derived Script Analysis and)‏ 
Recognition‏ أو (ASAR‏ بوتقة سنوية حديثة -نسبيا- متخصصة في تحليل النصوص 

العربية ونصوص اللغات المشتقة من العربية والتعرّف JYI‏ عليها. 

تنعقد ورشة العمل الثالثة عام ۲۰۱۹ بالتزامن مع انعقاد ICDAR‏ للعام ۲١٠۹‏ 
في مدينة سيدني» أستراليا؛ وقد كانت ورشة العمل الثانية عام ۲١٠۸‏ في مدينة «OX‏ 
المملكة المتحدة؛ والأولى ١1 ele)‏ ۰ في نانسي» فرنسا. 


وإضافة للمؤتمرات وورشات العمل المذكورة» تنعقد مؤتمرات أخرى ربا تكون 
ذات صلة ببعض مواضيع التعرف الآلي على الكتابة العربية» مثل المؤتمر الدولي للتعرف 
على b!‏ وذكاء الآلة International Conference on Pattern Recognition)‏ 
and Machine Intelligence‏ أو 1 والمؤتمر الدولي لتحليل ومعالجة الصور 
International Conference on Image Analysis and Processing)‏ أو «(ICIAP‏ 
والمؤتمر الدولي لتحليل الصور والأناط الحاسوبية International Conference)‏ 
on Computer Analysis of Images and Patterns‏ أو (CAIP‏ وحلقات العمل 
الدولية المشتركة مع IAPR‏ حول التقنيات الإحصائية للتعرف على IAPR) QNI‏ 
Joint International Workshops on Statistical Techniques in Pattern‏ 
Recognition‏ أو (SPR‏ وكذلك التعرف على الأنماط 415,41 والنحوية ) Structural‏ 
.SSPR) fand Syntactic Pattern Recognition‏ ويمكن ee‏ على قائمة 
المؤتمرات المعتمدة من QIAPR‏ صفحتهم على الشبكة العنكبوتية. 


o, Y‏ أهم المجلات العلمية المحكمة التي تصلح لنشر المقالات في المجال 
نلقي فيا يلي بعض الضوء على بعض المجلات البارزة التي يتم فيها نشر البحوث 
المتعلقة بالتعرف على النصوص المكتوبة بخط اليد باللغة العربية: 
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١"و,ه‏ المجلة الدولية لتحليل والتعرف على المستندات 

تركز المجلة الدولية لتحليل والتعرف على المستندات The International Journal)‏ 
on Document Analysis and Recognition‏ أو (AJDAR‏ على نشر المقالات العلمية 
المحكمة المتخصصة في تحليل الوثائق والتعرف عليها. يتضمن ذلك المساهمات التى 
تتناول التعرف على المحارف والأرقام والنصوص والخطوط والرسومات والصور 
والكتابة اليدوية والتوقيعات» بالإضافة إلى مجال تحليل هياكل الوثائق؛ كل ذلك 
دف فهم محتواها الدلالي آليا. تنشر البحوث المقبوولة في هذه المجلة بواسطة الناشر 
.Springer Verlag‏ 


Y, Y‏ وه تداولات معهد مهندسي الكهرباء والإلكترونيات لتحليل الأنماط والذكاء الآلي 

لمعهد مهندسى الكهرباء والإلكترونيات الدولي (IEEE)‏ عدة «تداولات» 
(Transactions)‏ م منها رسائل تحليل b!‏ والذكاء Transactions) JY‏ 
on Pattern Analysis and Machine Intelligence‏ أو .(TPAMI‏ تعد هذه البوتقة 
من أشهر المجلات وأجودها في المجال» وهي تنشر في جميع المجالات التقليدية لرؤية 
الحاسب وفهم الصورة» وكذلك المجالات التقليدية لتحليل ce)‏ والتعرف عليهاء 
ومجالات مختارة من ذكاء الآلة» مع التركيز على التعلم الآلي لتحليل الأنماط. كا يمكن 
أحيانا تغطية تقنيات البحث المرئى» وتحليل المستندات والخط اليدوي» وتحليل الصور 
ot‏ قلي اورا تسر الجا Bae ١‏ في السنة. 


bp وه التعرف على‎ Y, Y 

التعرف على Pattern recognition) bI‏ أو (PR‏ بوتقة مهمة أخرى في المجال. 
أنشئت المجلة منذ ما يقارب * 0 Gle‏ -أي في السنوات الأولى لتطور علوم الحاسب 
الآلي ثم توسعت بشكل أكبر. 

تقبل المجلة الأوراق التي تقدم مساهمات أصيلة في نظريات ومنهجيات وتطبيقات 
التعرف على الأناط في أي die‏ بشرط أن يتم شرح سياق العمل بشكل واضح 
وترسيخه في أدبيات التعرف على الأناط. تنشر المجلة \Y‏ عددا في العام 12 عددًا في 
السنة بواسطة .Elsevier Science B.V‏ 
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o, Y, ٤‏ رسائل التعرف على الأنماط 

(PRL أو‎ Pattern Recognition Letters) (PUN! «رسائل التعرف على‎ ile 
لملحكّمة تنشر مقالات موجزة بوقت سريع (نسبيا) بتغطية واسعة لأدبيات التعرف على‎ 
الدولية‎ lol JI (وخصوصا المواضيع التي تتم بها كل من اللجان الفنية لمعهد‎ VI 
للتعرف على الأناط)» تقبل المجلة الأوراق البحثية النظرية والمنهجية والتجريبية‎ 
والتطبيقية. معايير قبول المقالات تتركز في أصالة البحث وجودته ووضوح طرحه. يتم‎ 
.Elsevier Science B.V نشر المجلة شهريًا بواسطة‎ 


5- الخاتمة 

قطعت القراءة الآلية أشواطا منذ ظهرت. وما زالت معالحة الكتابة العربية تتطور 
في هذا المضمار مع أساليب تعلم الآلة الحديثة» خاصة ما لا يتطلب منها تقطيع الكلمات 
إلى حروف» كالتعرف الكلي والضمني في ناذج ماركوف الخفية والتعلم العميق. فصّل 
هذا الباب في شرح ومقارنة أحدث بحوث المجالء ثم ختم بثبت لأهم مظان المراجع 
وأوعية النشر من مجحلات icol Ege‏ نسأل الله تعالى أن ينفع به قارئه وكاتبيه وناشره. 
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التعرف الآلي على الكلام العربي المنطوق وتطبيقاته 
-2 القرآن الكريم 


(0s £ £‏ 
د. احمد همدي gl‏ عبسة 


ملخص 

يعتبر التعرف على الكلام العربي المنطوق من الأبحاث المامة التي لها دور كبير في كثير 
من مجالات الحياة مثل التعليم والصحة والصناعة وغيرها من التطبيقات. في هذا البحث 
تم تطوير التعرف الآلي على الكلام العربي المنطوق باستخدام أنظمة الذكاء الاصطناعي 
وتطبيقه لخدمة القرآن الكريم. في الطريقة التقليدية لمعالجة الكلام» يتم الاعتماد على 
تقسيم الجملة الصوتية إلى مجموعة ثابتة من الأطرء بين في هذا البحث تم الاعتماد على 
المقاطع الصوتية والتي تعرف على أنها الجزء الأساسي الأصغر في اللغة والمكونة من 
مقاطع ساكنة ومقاطع متحركة. استعرضنا في هذا البحث أهم خوارزميات استخراج 
خصائص المقاطع الصوتية» والتي تعتبر الخطوة الأولى في تصنيف المقاطع الصوتية. ثم» 
لتحسين نتيجة التصنيف» قلصنا حجم مصفوفة خصائص المقاطع الصوتية باستخدام 
تقنية تحليل المكونات الأساسية. كا تم استخدام نظام التشجير التصنيفي المبني على 
قواعد التجويد» حيث يتم تصنيف المقاطع الصوتية إلى ثلاث مراحل: تصنيف Ae‏ 
المقطع الصوتي ساكن el‏ متحرك» وتصنيف الحرف الساكن من حيث التفخيم والغنة» 
وتحديد زمن الحرف المتحرك في المقطع الصوتي. من خلال تطبيق هذا البحث» وجدنا 
أن إدخال قواعد التجويد القرآنية مع أنظمة التعرف الآلي على الكلام لها دور مهم في 
تحسين دقة تصنيف البيانات القرانية. 


-١‏ د. أحمد حمدي أبو عبسة رئيس قسم هندسة البرمجيات في جامعة فلسطين. حصل د. أبو عبسة على درجة البكالوريوس 
في هندسة الاتصالات والتحكم من الجامعة الإسلامية بغزة وعلى jo‏ الماجستير في علوم الحاسب الآلي من جامعة 
شهال فرجينيا ثم على ماجستير آخر في أنظمة الاتصالات من الجامعة الإسلامية بغزة. حصل على درجة الدكتوراة في 
معالجة الإشارة الرقمية من قسم الهندسة الكهربائية في جامعة الملك فهد للبترول والمعادن» وله العديد من الأبحاث 
والمشاريع في مجال معالجة الصوت والصورة بتقنيات الذكاء الاصطناعي. 
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Y‏ — مقدمة 
بدأ eleal‏ خبراء الحاسب والباحثين في مجال التعرف الآلي على الكلام منذ أكثر 
من أربعة عقود» وذلك لكى يصل الإنسان إلى مرحلة تجعله قادرا على التخاطب 
مع الحاسب الآلي وإعطائه الأوامر بدون الحاجة إلى الكتابة مما من شأنه توفير الجهد 
والوقت وإمكانية التفاعل مع الآلة بشكل طبيعي أكثر والتي تؤدي إلى استخدامها في 

مجالاات تطبيقية متعددة. 

ومع تطور التقنيات التكنولوجية في العصر الحديث؛ اتجه العالم إلى استخدام مفهوم 
الذكاء الاصطناعي (AI j| Artificial Intelligence)‏ وتعلم الآلة Machine)‏ 
(Learning‏ في مجالات متعددة والتي من ضمنها التعرف الآلي على الكلام المنطوق 
باللغة العربية» وكذلك مجالات التعرف على أحكام التجويد في تلاوة القرآن الكريم. 

يعرف مصطلح الذكاء الاصطناعي على أنه قدرة الآلة على محاكاة العقل البشري 
والتعلم من التجارب السابقة. ومنذ التطوّر الذي شهده الحاسب الآلي في منتصف 
القرن العشرينء تمكن العلماء من برمجة الحاسب JII‏ وتطويره للقيام بمهام كثيرة 
ومعقدة تضاهى مستوى elal‏ الخبراء والمحترفين في مجحالات كالتشخيص الطبيء أو في 
حركات البحث أو في تطبيقات التعرف على الصوت والكتابة اليدوية وغير ذلك .]١[‏ 

ويمكن تقسيم أهداف الذكاء الاصطناعي وتعلم الآلة إلى ثلاثة أقسام رئيسية على 

النحو التالي: 

.١‏ التصنيف (Classification)‏ حيث تقوم الخوارزمية بالتعلم وذلك 
من خلال وجود مجموعة من الأصناف Classes‏ وكل صنف له 
خصائص features‏ مشتركة» حيث يقوم المصنف بربط الخصائص بصنف 

”. الارتباط :(Regression)‏ وهو أسلوب إحصائي يستخدم في قياس مدى 
العلاقة الدلالية بين متغيرين » بحيث يكون أحد المتغيرات (متغير تابع) والآخر 
(متغير مستقل أو مُفيِر) وهو المتسبب في تغير المتغير التابع» وقد يستعمل للتنبؤ 
بقيم المتغير التابع بناء على المستقل . 
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ele pt حيث تقوم الخوارزمية بتقسيم البيانات إلى‎ :(Clustering) التجميع‎ Ea 
غير معروفة مسبقا وكل مجموعة يتم التعامل معها على آنا صنف.‎ 

يعرف التعرف التلقائي على الكلام ASR)Automatic Speech Recognition)‏ 
بأنه عملية تحويل الموجات الصوتية (الإشارات الصوتية للكلام) إلى كلمات أو وحدات 
لغوية [Y] Phonemes‏ يظهر التعرف التلقائي على الكلام في العديد من المجالاات 
الصناعية والمدنية» بها في ذلك: التطبيقات التي تشجع الاستغناء عن احتياج الأيدي في 
التعامل معهاء والتفاعل مع الأجهزة الذكية» والترجمة الشفوية التلقائية» وأدوات دعم 
المعاقين سمعياء والإملاء التلقائي وغيرها من التطبيقات. 

وعند تطبيق نظام التعرف الآلي على الكلام الصوتي في الحاسب الآلي» وجد أنه من 
السهل التعرف على الكلمات المنفردة» ولكن الأصعب هو التعرف على الكلام المستمر. 
وهذا كله يعتمد على عوامل من بينها اللغة المستهدفة وحجم وتنوع البيانات التي يقوم 
النظام بالتدرب عليهاء بالإضافة إلى طبيعة البيئة التي jac‏ فيها الصوت وغير ذلك 
ZEILE‏ 

تعتمد الطريقة التقليدية لمعالجة الصوت على تقسيم الجملة الصوتية إلى مجموعة 
ثابتة من الأطر fixed frame‏ بحيث لا يزيد طول الإطار عن * Y‏ ميليثانية وذلك لثبات 
خصائص الكلام الصوتي في هذه الفترة وعدم تغير خصائصه. ولكن هذه الطريقة قد 
لا تلائم الوضع الطبيعي للكلام الصوتي حيث أن الصوت البشري يصدر على هيئة 
مقاطع صوتية segment units‏ ختلفة الأطوال لا أطر زمنية [o] frames‏ 

iud‏ المقاطع الصوتية segment units‏ على Vi‏ الجزء الأساسي الأصغر في اللغة 
والمكونة من مقاطع ساكنة (Consonants (C‏ ومقاطع متحركة d» (Vowels (V‏ 
اللغة االعربية يتم تقسيم وحدات الكلام إلى خمسة أنواع أساسية: حرف متحرك CV‏ مثل 
)22 حرف تمدود CVV‏ مثل e (L)‏ مقطع من متحرك فساكن CVC‏ مثل «CIO‏ 
مقطع من t‏ » فساكن 017170 مثل (QU)‏ ومتحرك فساكنين CVCC‏ مثل (عَضْر). 
وبالتالي فإن كل مقطع صوتي Segmentunit‏ في اللغة ستكون عبارة عن صنف (class)‏ 
وسيكون دور المصنف classifier‏ التعرف على هذه المقاطع الصوتية من مجموعة كبيرة 
من عدد الأصناف classes‏ الموجودة في اللغة في وقت واحد» liag‏ الأمر يعتبر صعبًا 
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من الناحية العملية خاصة عندما يكون عدد الأصناف كبيرًا والتشابه بينهم أيضا كبيرًا 
ID‏ 


في نظام تلاوة القرآن الكريم» يبلغ عدد جميع المقاطع الصوتية segment units‏ في 
الجزء الثلاثين من القرآن الكريم 57٠١‏ مقطعا صوتيا تقريباء ىا يبلغ إجمالي عدد 
أصناف هذه المقاطع الصوتية ۸٠١‏ صنفا مختلفا تقريبا [o]‏ وبالتالي يصعب تصنيف 
هذا العدد الكبير من الأصناف باستخدام الخوارزميات التقليدية؛ لذلك» فإننا نقترح 
في هذا البحث اتباع تقنية من تقنيات الذكاء الاصطناعي تسمى «التصنيف الشجري 
.(Hierarchical Tree Classification) € PE‏ حيث يتم تجميع عدد كبير من 
الفئات في مجموعات فرعية قبل تصنيفها [YIGG‏ 

يشكل نظام التصنيف الحرمي هيكلا يشبه الشجرة» حيث يمكن عبور العديد من 
المسارات من الجذر وصولا إلى الأطراف (الأوراق) على مبدأ «فرق واغز» Divide»‏ 
«and Conquer‏ حيث يتم تقسيم المشكلة الكبيرة بشكل متكرر إلى مشاكل أصغر 
وأسهل يمكن دمج حلوها لإيجاد حل للمشكلة الشاملة .]٠[]٤[‏ 

يتميز نظام التصنيف الهرمي عن المصنفات التقليدية بتقليل عدد الأصناف إلى 
أصناف أساسية والتي بدورها تقوم بالاستغناء عن الحسابات غير الضرورية. كا 
يظهر التصنيف ال هرمي مرونة في اختيار مجموعات فرعية ختلفة للفصول حسب قواعد 
Ji‏ ين الرااحل Aia‏ فى ci poet‏ اة إلى el pe] Ag]‏ اة بين دة 
التعرف على الصنف في أحد فروع الشجرة وكفاءة الفترة الزمنية للحصول على النتيجة. 

Ul‏ عيوب تصنيف التسلسل الحرمي فمنها أن أي Ua‏ في نظام التعرف على أفرع 
الأشجار الرئيسية في المراحل الأولى ESE‏ وئنتقل إلى المراحل الفرعية. وهنا deci‏ 
إشكالية المفاضلة بين الدقة والكفاءة» حيث يصعب تحسين كل من الدقة والكفاءة معا. 
علاوة على ذلك» فثمة صعوبات في تحديد القواعد وعدد المراحل في الشجرة الأمثل في 
التطبيق» وهذا بدوره يؤثر على نتيجة الأداء باستخدام التصنيف الهرمي AVIEN‏ 

في هذا البحث نقوم بعرض نظام مقترح لتصنيف الكلمات القرآنية باستخدام 
أساليب وتقنيات المصنفات التقليدية والمصنف الحرمي. سيتم تقسيم البحث إلى 
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ستة وحدات على النحو التالى: الوحدة الثانية عبارة عن وصف بنية نظام التعرف 
على الكلمات القرآنية. وفي الوحدة الثالثة يتم توضيح RAS‏ استخراج الخصائص 
للصوت (Feature Extraction)‏ وفي الوحدة الرابعة نبين كيفية تقليل حجم مصفوفة 
الخصائص المستخرجة Feature Extraction matrix Dimension‏ باستخدام تقنية 
تحليل المكونات الأساسية -Principle Component Analysis (PCA)‏ و الوحدة 
الخامسة شرح أشهر المصنفات التقليدية والتي يتم استخدامها لمعالجة الصوت في 
القرآن الكريم. وفي الوحدة السادسة شرح نظام تصنيف التسلسل الهرمي وتطبيقه على 
الوحدات الكلامية في القرآن الكريم. 


Y‏ - بنية نظام التعرف JY‏ على الوحدات الكلامية في القران الكريم 
في هذا الببحث سنقوم بالاعتاد على المقاطع الصوتية segment units‏ في القرآن 
الكريم عوضا عن الإطارات الثابتة fixed frames‏ يوضح الشكل ١‏ الخطوات 
الرئيسية لبنية نظام التعرف الآلي وفيه الخطوات التالية: 
.١‏ الحصول على المقاطع الصوتية الخاصة بالقرآن الكريم. 
؟. استخراج الخصائص المتعلقة بالمقاطع الصوتية القرآنية. 
۳. تقليل أبعاد متجه المخصائص Feature Vector Dimension Reduction‏ 
5. استخدام تقنية تصنيف التشجير الحرمي HTC) Hierarchical Tree)‏ 
J&J Classification‏ عدد الأصناف إلى أصناف رئيسية. 
أنواع: 
مصنف بايز d[Y*] Naive Bayes‏ ومصنف الشبكة العصبية متعددة الطبقات 
Multi-Layer Perceptron (MLP)‏ ]4[ ومصنف الجار الأقرب K-Nearest‏ 
(KNN) Neighbor‏ ]3*1[ ومصنف UT‏ متجه الدعم Support Vector Machine‏ 
IY ] (SVM)‏ 
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وسنقوم OYI‏ بشرح تفصيلٍ لكل خطوة من الخطوات الموجودة في شكل .١‏ 


شكل :)١(‏ مخطط منهجية البحث في استخدام الذكاء الاصطناعي للتعرف على مقاطع القرآن الكريم 


\ الحصول على المقاطع الصوتية الخاصة بالقرآن الكريم 

مدخلات النظام المقترح عبارة عن مقاطع صوتية خاصة بالقرآن الكريم حصلنا 
عليها من قاعدة بيانات مدينة الملك عبدالعزيز للعلوم والتقنية للجزء الثلاثين من 
القرآن الكريم 01 وبلغ due]‏ عدد وحدات المقاطع الصوتية فيها ما يقارب 47٠١‏ 
مقطعا صوتيا. 


Y‏ , ۲ استخراج الخصائص المتعلقة بالمقاطع الصوتية القرآنية 

استخراج الخصائص للمقاطع الصوتية مرحلة مهمة جدا في التعرف على 
الكلام. ويتمثل التحدي والصعوبة في كيفية استخراج خصائص قوية تمكن المصنف 
من التعرف على المقطع الصوتي وتحديد الصنف الذي ينتمي له هذا المقطع. ولاستخراج 
ا لخصائص من المقاطع الصوتية نقوم في البداية بتقسيم المقطع الصوت المدخل إلى إطارات 
J sh frames‏ نموذجي N‏ يتراوح من 11١‏ إلى ١177١‏ عينة لكل إطارء والتي تقدر 
من ١5‏ إلى * Y‏ مللي ثانية» والتي تحافظ على ثبات خاصية الصوت في هذه الفترة الزمنية. 
لقد قامت دراسات سابقة كثيرة لتحديد الخوارزميات التي تقوم باستخراج الخصائص 
من الصوت وني هذا البحث سيتم التطرق إلى أهم هذه الخصائص. 


V, Y‏ , خاصية الطاقة الصوتية 

تعتبر خاصية الطاقة الصوتية سمة ممتازة خاصة للتمييز بين المقاطع الساكنة 
(consonant)‏ والمقاطع المتحركة (vowels)‏ نظرًا Le‏ تكون عادة ذات قيمة عالية 
في المقاطع المتحركة وقيم منخفضة في لمقاطع الساكنة. ولاستخراج خاصية الطاقة من 
المقطع الصوتي نقوم في البداية بتحويل المقطع الصوتي من مستمر Continuous‏ إلى 


—AY- 
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متقطع Discrete‏ عن طريق تقطيع المقطع الصوتي إلى عينات samples‏ بفرق زمني 
ثابت ومن ثم يتم تطبيق المعادلة التالية T VY]‏ 


Ej Y XU) NO OSO OE OE OOS O Für Nani م‎ uto E a () 


حيث تثل E,‏ الطاقة الكلية للمقطع الصوتي i‏ و تمثل (sample) n ize x;(n)‏ 
في المقطع الصوت 1 و هو العدد الكلي للعينات (samples)‏ المقطع الصوتي. ومثال 
على ذلك op‏ قيمة الطاقة في الآية #كلا سيعلمون* تظهر بلون أحمر في الشكل Y‏ 
خب eso‏ أن فة ارف ss ) 23 i eel‏ من اطرف الساكن (0): 


| 


2 ل & سال گل 
الشكل (Y)‏ قيمة الطاقة للمقاطع الصوتية في آية #كلا سيعلمون» ]2[ 


(Pitch) خاصية حدة الصوت‎ Y , Y, Y 
خاصية إدراكية تسمح بترتيب الأصوات حسب‎ Ld تُعرف «حدة الصوت» على‎ 
سلم مرتبط بالتردد» أي حسب عدد تكرار الاهتزازات (الذبذبات) هيرتز في الثانية‎ 
حيث يتم استخدام هذه الخاصية لمعرفة التردد‎ [VE] للطبقات الصوتية أثناء التتحدث‎ 

الأساسي للمقطع الصوتي بناءً على الارتفاع والانخفاض في نغمة الصوت. 
هناك طرق مختلفة يمكن استخدامها لتقدير در جة الصوت من إشارةالكلام . سنشرح 
فيا يلي طريقة «تقنية الارتباط التلقائي ) Autocorrelation Technique‏ بين كل إطار 


والإطار الآخر من خلال استخدام المعادلة التالية: 


R(k) = FHL x(m)x(m + k) eee (Y) 
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حيث أن FL‏ هو طول الإطار» x(m)‏ هو إطار الإشارة» k‏ عامل الإزاحة» R(k) s‏ 
هي دالة الارتباط التتقريبي التلقائي. 


Formant Frequencies eS صوت‎ iio خاصية ترددات‎ ۲,١,۳ 


o‏ خاصية ترددات iio‏ صوت الكلام على أا ترددات الرنين والاهتزاز في 
الأحبال الصوتية أثناء النطق وتكون ظاهرة بشكل كبير في الحروف المجهورة (حروف 
كلمة قطب جد) أكثر من الحروف المهموسة (مثل حرف الحاء والهاء) [Yo]‏ 
ويمكن QA‏ هذه الترددات عن طريق حساب القيم العطظمى للترددات 
Peaks of The Frequency Response‏ من خلال تقنية الترميز التوقعى الخطى 
Linear Predictive Code (LPC)‏ والتي تمثل على النحو التالي: i ] ١11‏ 3 
eem (Y)‏ ل ل 

حيث X(n)‏ هى العينة المتوقعة عند الوقت an‏ والمتغير p‏ عبارة عن عدد العينات 
السابقة للوقت p sin‏ هي معاملات 1:50 . 


Mel-Frequency Cepstrum خصائص معاملات تردد ميل‎ ۲, ١: 

تعتبر تقنية معاملات تردد ميل (MFCCS)‏ من أكثر الخصائص استخداما للتعرف 
على الكلام. حيث أن الفكرة وراء معا لجة MECC‏ هي مقاربة الطريقة التي يسمع بها 
البشر الأصوات. حيثتركز الأذن البشرية عند الاستماع على الترددات المنخفضة»ء وهذا 
ما تحاوله MFCC‏ من خلال تكبير مدى هذه الترددات باستخدام اللوغاريتات. يبدأ 
استخراج MFCC‏ لكل إطار في المقطع الصوتي والذي يتراوح من ٠٠١‏ إلى ١7١‏ عينة 
لكل إطارء والتي تقدر من ١5‏ إلى ١‏ مللي ثانية .]١5[‏ لتحويل الترددات الخطية إلى 


مان ميل تكرت ق الماد إلغالية : 
)£( ام و ود 132531 MO)‏ 
700 
حيث 1 قيمة التردد في هرتز. لتوضيح خطوات عمل MFCC‏ موضحة في 
الشكل Y‏ 
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Warping 
MFCCs DCT Filter Bank 
) 


4 


Mitel Filter Sank 


الشكل (7): Ó)‏ خوارزمية MFCC‏ (ب) مرشح ميل 

Discrete Wavelet Transform (DWT) تو يل المويجات المنفصلة‎ 

يعتبر تحويل المويجات المنفصلة من الخصائص المميزة في تمثيل الإشارة في كل 
من مجال الزمن والتردد (Time and Frequency domain‏ حيث هذا المجالان هما 
التمثيلان المشهوران للإشارات» حيث يرز كل منهما جانبا من خصائص الإشارة. 
إن الفكرة ة الرئيسية من DWT‏ هو تقسيم نطاق إشارة تردد المقطع الصوتي وترتيبها 
من الأقل إلى الإعلى بشكل متعاقب كما هو موضح في الشكل 4. حيث Qy‏ (العقدة 
الجذرية لشجرة نطاق الترددات في المقطع الصوتي) تمثل تردد الإشارة الأصلية. ومن 
ثم يتم تقسيم نطاق التردد إلى قسمين بحيث ر ٩2,‏ تمثل النصف العلوي من نطاق تردد 
عدد المستويات المطلوبة. 


الشكل (5): المستويات الثلاثة لتحلل نطاقات التردد للمويجات 
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Feature Vector Dimension Reduction تقليل أبعاد متجه الخخصائص‎ Y. Y 

إن استخدام الخصائص التي تم الحديث عنها في الفقرة السابقة يعطي 
نتائج جيدة ولكن ليست ممتازة وذلك بسبب احتمالية وجود بيانات كثيرة مكررة أو 
ليست ذات أهمية في التمييز بين الأصناف مما قد يؤدي إلى تعقد اعملية التصنيف. 
ولكي نقوم بتحسين هذه النتائج يتم استخدام تقنية تحليل المكونات الأساسية 
Principle Component Analysis (PCA)‏ لتقليص بيانات الخصائص واختصارهاء 
حيث تقوم بتحويل العدد الكبير من المتغيرات المترابطة ضمنا -ولو بشكل جزئي- إلى 
مجموعة أصغر من المتحولات المستقلة التخيلية» وهي تدعى عادة بالمكونات الرئيسية 
وتحسب أساسا من المتغيرات الأصلية بسب ومقادير تزيد أو تنقص بحسب دور 
وتأثير كل منهاء لتصف أكبر قدر ممكن من البيانات الموجودة في خصائص الأصناف. 

إن الفكرة الأساسية في تحليل المكونات الرئيسية PCA‏ هو تقليل حجم مصفوفة 
استخراج الخصائص إلى أكبر قدر ممكن والتي تسهم في التمييز بين الأصناف» وذلك من 
خلال عمل محاور تخيلية متعامدة والتي تحسب من خلال مجموع الخصائص المستخرجة 
للمقاطع الصوتية الحقيقية لكن بأوزان متفاوتة تعكس دور كل منها وأهميته في التفريق 
ما بين الأصناف. تعمل خطوات تنفيذ الخوارزمية على حصر أكبر قدر ممكن من 
التباينات ضمن توليفة الخاصية التخيلية الأولى والتى عادة ما يطلق عليها تسمية المكون 
الأساسي الأول 1 مات فما p‏ الخاصية الحا وال تر 
إلى الحصّة الكليّة من التباينات التي تم إلتقاطها والتعبير عنها في هذه الخاصية التخيلية. 
ثم بعد ذلك يأتي الدور في تكوين المكون الأساسي الثاني 702 والذي سيقوم بدوره 
بمحاولة التعبير عن أكبر قدر ممكن من التباينات المتبقية والتي لم يستطع PCI‏ التعبير 
عنهاء ويستمر الأمر بالنسبة لكل من 803 PC4‏ وصولا إلى العدد الكلي للخصائص 
التي تم استخراجها للمقاطع الصوتية. 

بهذه التقنية نستطيع التمييز بين الخصائص التي لا تسهم في التفريق ما بين الأصناف 
المختلفة في مجموعة البيانات ويكون ها أوزان صغيرة تقترب من الصفر» وبين الخصائص 
التى لما دورا هاما في التفريق ما بين الأصناف حيث يكون لتلك الصفات أوزان ذات 
نادو قير a uio R2‏ لمعتسن IY M‏ 
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ولحساب PCA‏ من الناحية الرياضية نقوم في البداية بتحليل القيمة الذاتية 
65 لصفوفة التباين التقر يبي .estimated covariance‏ وهذا الأمر يتم 
من خلال إيجاد الوسط الحسابي لمصفوفة البيانات الخاصة بكل نوع من أنواع المقاطع 
الصوتية. ويمكن إيجاد مصفوفة التباين التقريبى من خلال العلاقة التالية: 


حيث X‏ هي مصفوفة الخصائص المستخرجة من جميع المقاطع الصوتية في قاعدة 
البيانات والتي أبعادها m X n‏ حيث أن m‏ هي عدد الخصائص الكلية التي تم 
استخدامهاء و2 هو عدد الملاحظات observations‏ والتي تعني هنا جميع المقاطع 
الصوتيةء والمتغير Sy‏ عبارة عن مصفوفة مربعة متياثلة أبعادها m x m‏ بحيث أن قطر 
المصفوفة Sy‏ عبارة عن قيم التباينات التقديرية بين المتغيرات. للحصول على تحويل 
PCA‏ نقوم بتطبيق المعادلة التالية: 


حيث Y‏ عبارة عن تمثيل X‏ بناء على أساس المصفوفة الجديدة CP‏ حيث أن P‏ عبارة 
عن مصفوفة تحول × إلى نظام الإحداثيات التخيلية الجديدة وتكون فيها البيانات مرتبة 
من الأكبر إلى الأصغر. ولإيجاد مصفوفة تقدير التباينات بالنسبة للمصفوفة ۷ يتم 
احتساءها من خلال المعادلات التالية: 
.1 
Sy = LYY‏ 
" 1 
z PXPX)‏ = 


NT 
=—PXX"P! 
n 


em 
= P(-XX*)P' 
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LS‏ أن مصفوفة تقدير التباينات Sy‏ يمكن تحليلها باستخدام تحليل القيم الذاتية على 


حيث أن D‏ عبارة عن مصفوفة قطرية تكون فيها البيانات مرتبة حسب القيم الذاتية 
من الأكبر إلى الأصغر. والمصفوفة U‏ عبارة عن المتجهات الذاتية eigenvectors‏ حيث 
أن كل عمود في المصفوفة عبارة متجه ذاتي والتي تتميز بأنه عندما يتم إجراء تحويل 
خطي على هذه المتجهات لا يتغير اتجاهها. (os‏ أن المصفوفة Sy‏ متماثلة UT-U-! op‏ 
وبالتالي يمكن كتابة Sy‏ على الشكل التالي: 


وبالعودة إلى Sy‏ نفترض أن UT‏ = م فإن S,‏ تكون على الشكل التالي: 
Sy = PSP" =U"S,U > = U'(UDU') U‏ 


= (PP')D(PP') > Sy =D (10) 


يمكننا أن نرى أنه عندما يتم اختيار مصفوفة التحول على أساس "ل = م 
«P > UT‏ فإن ناتج الخصائص المتحولة (العناصر الموجودة في المصفوفة Y‏ تصبح 
غير مهمة ب أن مصفوفة التغاير في النتائج قطرية. إن هذه الطريقة أدت إلى عمل ترتيب 
القيم الذاتية والمتجهات الذاتية حسب الأهمية وبالتالي يمكن تقليل أبعاد المصفوفة إلى 
2 حيث أن 4 عبارة عدد الصفوف المطلوبة من المصفوفة الكلية. وعادة في الأبحاث 
يكون اختيار حجم المصفوفة بحيث يكون مجموع التباينات على الأقل TA‏ من مجموع 
التباينات الكلية. 

ولتوضيح أهمية وقوة PCA‏ نوضح في الشكل o‏ مخطط التشتت scatter plot‏ 
(مخطط يستخدم بيانياً لتقديم وعرض العلاقة بين متغيرين) لكل من ا حروف الساكنة 
15 والحروف المتحركة vowels‏ للمقاطع الصوتية بعد تطبيق نظام التحويل 
.PCA‏ 
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consonant 
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الشكل )0( : مخطط التشتت للحروف الساكنة والمتحركة بعد تقليل أبعاد الخصائص باستخدام تحويل PCA‏ 


في الشكل T‏ يوضح الرسم البياني لكل من الحروف الساكنة والحروف المتحركة بناء 
على دالة التوزيع Je PDF Je YI‏ شكل توزيع جاوس .Gaussiandistribution,‏ حيث 
نلاحظ أيضا أن صنف الحروف الساكنة منفصلة تماما عن صنف الحروف المتحركة وهذا 
بدوره يؤدي إلى الحصول على نتائج ممتازة للتصنيف بين الأصناف. 
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الجملة الأولى الجملة الثانية الجملة الثالثة 
الشكل (5): الرسم البياني لدالة توزيع الاحتمالات على شكل جاوس بعد تطبيق إسقاط „PCA‏ 


Hierarchical Classification التصنيف الحرمى‎ Y و‎ 5 

يعتبر تصميم هيكل شجر ة التصنيف اهرمي Hierarchical Classification)‏ أو 
(HTC‏ من الطرق المهمة في التصنيف وذلك من خلال البحث عن الشجرة المناسبة 
etl rata,‏ للمجموغات الفرعية سى يتم التعرف عل الفروع في كل 
طبقة , إن أبسط ظريقة هي تقسيم للشكلة إلى نشكلات قرعية i gd Y‏ عل ete‏ 
مشتركة» وتسمى أيضًا «الانقسام الصعب» [YA]‏ .ويمكن استخدام هذه الطريقة في 
القرآن الكريم بیت يع cita‏ اقا الصوئية عل شكل هرسي HTC‏ كاهو 
موضح في الشكل /: 
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تعتمد بنية HTC‏ عل المعرفة المسبقة كيفية قراءة المقاطع الصوتية بناءً 
على قواعد التجويد المستخدمة في تلاوة القرآن الكريم . في بداية التصنيف الهرمي في 
الطبقة الأولى يتم التمييز في جذر الشجرة بين المقاطع الصوتية من نوع CV‏ أو CVC‏ 
وذلك عن طريق أخذ آخر ثلاث إطارات frames‏ من المقطع الصوتي ونقوم باستخدام 
خاصية الطاقة energy‏ للتعرف هل ile‏ المقطع هل هو حرف ساكن آم متحرك. 

في الطبقة الثانية يتم تصنيف كل فرع بناء على معيارين رئيسين: المعيار الأول هل 
الحرف الساكن مفخم el‏ لاء والمعيار الثاني هل الحرف الساكن فيه غنة أم لا. بناء على 
هاذين المعيارين فلقد تم تجزئة الفرع الأول من الشجرة CV‏ إلى أربعة أجزاء: الجزء 
الأول حرف ساكن مفخم بغنة (مثل كلمة CUEN‏ والجزء الثاني ساكن مفخم بدون 
غنة (مثال ذلك كلمة «طبع»)ء والجزء الثالث ساكن غير مفخم بغنة (مثال ذلك 
كلمة «كنتم»)» والجزء الرابع ساكن غير مفخم بدون غنة (مثال ذلك كلمة «سأل»). أما 
في الطبقة الثالثة في هذا الفرع فكان المعيار الرئيسي كم زمن الحرف المتحرك» حيث في 
القرآن الكريم يكون إما حركة أو حركتين أو أربع أو ست حركات بناء على قواعد 
التجويد. بناء على معيار زمن الحرف المتحرك فسيكون إما حركة واحدة (V)‏ (مثال 
ذلك الفتحة)» أو حركتين (V2)‏ (مثال ذلك المد بالألف) . وبنفس هذه المعايير في 
الفرع الأول من الشجرة الرئيسية قمنا بتطبيقها على الفرع الثاني من الشجرة 
الرئيسية CVC.‏ حيث تم تقسيم CVC‏ كذلك إلى حرف ساكن مفخم بغنة (مثال 
ذلك «من قال» 3 وحرف ساكن مفخم بدون غنة (مثال ذلك كلمة «قال))» وحرف 
ساكن غير مفخم بغنة (مثال على ذلك كلمة «أنتم»)» وحرف ساكن غير مفخم بدون 
غنة (مثال ذلك كلمة «قيل») . ثم» ينقسم كل فرع إلى أربع أجزاء النوع الأول متحرك 
قصير (V)‏ (مثال على ذلك)» حرف ممدود (V2)‏ (على سبيل المثال] )» حرف 2544 
بزمن أربع حركات (V4)‏ (على سبيل المثال سائل)» وحرف ممدود بزمن ست حركات 
JU) (V3)‏ على ذلك سيعلمونعند الوقوف عليها يكون مد عارض للسكون بمقدار 
٦‏ حركات) . نلاحظ في الشكل V‏ أن الفرع ۷4 و۷6 ليست مدرجة في فرع CV‏ حيث 
هذا النوع ۷ يحدث عندما يتبع الحرف S oll‏ حرف همزة (ء) وهذا لا يكون إلا إذا 
كان المقطع من نوع .CVC‏ كذلك الفرع من نوع ۷6 يحدث عندما يكون بعد الحرف 
المتحرك حرفا ساكنا عندما يتوقف القارئ عن قراءة الآية. بناء على هذه الأنواع يكون 
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لكل مقطع صوتي نوع واحد فقط من هذا الأفرع وبالتالي يسهل عملية التصنيف. 

بناء على ما تم شر حه في التصنيف c s Ml‏ فمن الواضح HTC ob‏ ها ثلاث طبقات: 
الطبقة الأولى لدينا فئتين رئيسيتين CVs‏ و .CVCs‏ في الطبقة الثانية لديناأربع تصنيفات 
تحت كل فرع: مفخم بغنة» مفخم بدون غنة» غير مفخم بغنة» و غير مفخم بدون 
غنة. آما في الطبقة الثالثة» لدينا الفئات الفرعية V‏ و V2‏ تحت فرع مقاطع CV‏ والفئات 
الفرعية V‏ و۷2 و۷4 V6,‏ تحت فرع .CVCs‏ وبالتالي يبلغ إجمالي عدد التفريعات YY‏ 
تفريعة أي أنه تم تقليص عدد الأصناف للمقاطع الصوتية من ۸۰۰ إلى ۲۲ صنفا. 


leas aE 
ي‎ — 


Segment Unit 


الشكل ۷: شجرة تصنيف المقاطع الصوتية الخاصة بالقرآن الكريم 


Classification خوارزميات التصنيف‎ -Y 

Supervised) تعلم الآلة المراقب‎ E عمليات التصنيف (ضمن‎ Ge 
لتصنيف بيانات التدريب ضمن فئات ختلفة حسب خواصها المشتركة‎ 8 
التي يتم‎ (Models) cael وتعتمد عملية التصنيف على‎ clia. وها عدة خوارزميات‎ 
[Y +] المستخدم‎ (Classifier) بناؤها أثناء عملية التصنيف والمرتبطة بنوع المصنف‎ 
يلي نستعرض بعض المصنفات التي تمت المقارنة معها في هذا البحث:‎ eo, 
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Naïve Bayes pL مصنف‎ Y , Y 
القائمة على مبداً‎ (Bayes' theorem) يستند هذا المصنف إلى نظرية بايز الاحتالية‎ 
الاحتمال الشرطي الذي يقوم بحساب احتمال وقوع أحد الأحداث الاحتمالية بناء على‎ 

وقوع حدث مستقل آخر أو أكثر وفق المعادلة التالية: 
Prob(B given A) = Prob(A and B) / Prob(A) (0‏ 


حيث: 

Jc! :Prob(B given A)‏ وقوع الحدث 8 بناء على وقوع À eM‏ - وهو 
الاحتمال المطلوب 

:Prob(A and B) ;‏ احتمال وقوع الحدثين ۸و ويا أو ما يدعى (pairwise)‏ 

.(singleton) ما يدعى‎ JA وقوع الحدث‎ Je! :ProbCA) ; 


تقوم هذه الخوارزمية أغلب الأحيان بربط الحدث بعدة أحداث مستقلة. 

يمتاز هذا التصنيف بالسرعة في بناء النماذج كا أنه يمتاز b‏ قابل للتوسع (scalable)‏ 
مع ازدياد بيانات التدريب وبتنفيذ عملية بناء الناذج بشكل متوازي (parallelized)‏ 
ويمكن استخدامه لتصنيف بيانات ثنائية الفئات (binary class)‏ أو متعددة الفئات 


. (multi class) 


Multi-Layer Perceptron (MLP) Sh) مصنف الشبكة العصبية متعددة‎ Y, Y 

يعتمد هذا المصنف على خوارزميات الشبكة العصبية Artificial Neural)‏ 
(Network‏ ذات طبقة أو أكثر بين الدخل والخرج بحيث ترتبط كل عقدة (Node)‏ 
في كل طبقة بجميع العقد الأخرى في باقي الطبقات» وباستثناء طبقة الدخل فإن جميع 
العقد هى عصبونات اصطناعية (S CArtificial Neuron)‏ هو موضح في الشكل ۸. 

عند تدريب البيانات أو اجراء الاختبار عليها يتم إدخال البيانات عبر طبقة الإدخال 
(Input Layer)‏ وتتم معالجتها ضمن الطبقات المخفية (Hidden Layers)‏ وعرضها 
بالنهاية عبر طبقات ا خرج (Output Layer)‏ . 
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الشكل (۸): أنواع الطبقات الثلاث لتصنيف MLP‏ 


calis‏ كل طبقة من واحدة أو أكثر من العصبونات الاصطناعية المتوازية» لكل 
عصبون كما يظهر في الشكل 4 عدد N‏ من المدخلات ذات الوزن W‏ لكل منها بالإضافة 
لمخرج واحد فقط. يقوم كل عصبون بدمج المدخلات مختلفة الأوزان من خلال جمعهم 
سوية وبالاستناد إلى حد العتبة Threshold‏ والذي يرمز له عادة بالحرف الإغريقي 0 


Input 1 
Input 2. © (x) Sigmoid 1—Output— 


Threshold O 
الشكل )3( بنية العصبون الاصطناعي‎ 

لشرح آلية عمل هذه الخوارزمية بصورة مبسطة لابد من تعريف المتغيرات التالية: 

(wW Ww, .... WN) ذات الأوزان‎ (x xc ....« xn) المدخلات‎ 

الدالة u‏ دالة تعبر عن احتالية التنشيط (activation potential)‏ . 

دالة حد العتبة 0 threshold)‏ 
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. (output) y c دالة‎ 
(activation function) f دالة التنشيط‎ 


يعرف دالة احتمالية التنشيط بالمعادلة: 


المعادلة النهائية لتابع الخرج تظهر في المعادلة: 
y 2 f(Xa(wix)) ): wo 2 8: x9 271. (£)‏ 
يتم استخدام هذا التصنيف بشكل واسع في iae‏ مجالات؛ كالتعرف الآلي على 
الكلام «(speech recognition)‏ والتعرف الآلي على الصور (image recognition)‏ 
إضافة لبرامج الترحمة الآلية (machine translation)‏ . 


K-Nearest Neighbor مصنف الجار الأقر ب‎ Y Y 
للتنبؤ بالصنف‎ Cas: (KNN أو‎ K- Nearest Neighbor) مصنف الحار الأقر ب‎ 
عن طريق مقارنة السجلات الشبيهة بالسجل المراد التنبؤ بقيمته وتقدير القيمة المجهولة‎ 
هذا السجل بناء على مقدار تلك السجلات. يعتمد عمل هذه الخوارزمية بشكل أساسي‎ 
عدد الحالات الأكثر تشايها مع الحالة‎ (K) يمثل الرمز‎ (metric) على وحدة القياس‎ 
يوضح آلية عمل هذه الخوارزمية حيث تظهر‎ O المراد التنبؤ بقيمتهاء. الشكل‎ 
ضمن الحد الفاصل‎ (X) النقطة المجاورة الأقرب لإحدى نقاط البيانات المراد تصنيفها‎ 
CX) النقطتين المجاورتين للنقطة‎ (C2) يظهر ضمن الحد الفاصل‎ s (C1) (المسافة)‎ 

وضمن الحد الفاصل (C3)‏ النقاط الثلاثة المجاورة للنقطة CX)‏ 
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X Mm 


— | ^n 
KNN الشكل )2 توزع البيانات ضمن المصنف‎ 

تنتمى النقطة OO‏ في حالة (C1)‏ تنتمى إلى الصف السالب» 5 3( حالة (C3)‏ إلى 

الصف اس وذلك حسب نظام التضويت للأغلبية «(Majority Voting Scheme)‏ 

Ul‏ في حالة (C3)‏ فإنه يتم اختيار الصف بناء على وحدة القياس (metric)‏ ليتم تصنيف 

النقطة على أساسه. يتم اختيار العدد (K)‏ بشكل مناسب مع عدد البيانات بحيث يتم 

التغلب على التراكب الناتج عن عملية التصنيف والتي تزداد مع ازدياد شذوذ البيانات 
وعدم تناسقها. 


Support Vector Machine (SVM) متحه الدعم‎ if مصنف‎ Y , ٤ 
يعتبر هذا المصنف أحد أقوى المصنفات التقليدية بامتلاكه آلية عمل تدمج كلاً‎ 
(Radial Basis) من خوارزمية الشبكات العصبونية مع خوارزمية الشعاع الأساسي‎ 
لإيجاد أفضل سطح فاصل بين بيانات التدريب. يمتاز هذا المصنف بالمرونة» قابلية‎ 
المتنوعة‎ JYI التوسع والسرعة في الآداء ما يعطيه الأفضلية في معالجة مسائل التعرف‎ 
كا يتميز هذا المصنف بقدرته على‎ (Bioinformatics) وعلوم معلوماتية الأحياء‎ 

itle‏ معطيات ذات عدد كبير من المعايير مقارنة بعدد سجلات البيانات المتواجدة. 
تعمل آلية تصنيف المعطيات وفق حالتين: 


* تصنيف خطي: وذلك باختيار أفضل خط مستقيم أو مستوي يستطيع فصل 
البيانات ويكون أقرب ما يمكن لجميع هذه البيانات وهنا يمكن تمييز حالتين: 
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مجموعة البيانات ثنائية الفئة (Binary Class)‏ ذات بعدين (0=2)» يبين 
الشكل )١١(‏ مستقيم الحالة الأمثل (Optimum Situation)‏ التي تقسم 
متعددة الفئات (Multi Class)‏ متعددة الأبعاد «D22)‏ 

* تصنيف غير خطي: وذلك باختيار أفضل سطح أو منحني يستطيع فصل 
البيانات ويكون أقرب ما يمكن لجميع هذه البيانات وهنا يمكن تمييز حالتين 
حسب فئات وأبعاد البيانات فيا إذا كانت مؤلفة من ثنائية zall‏ فقط (D—2)‏ 
كما يظهر في الشكل (4-ب) أو متعددة الفئات (19<2). 


(2) Ó) 
SVM توضيح أسطح فصل البيانات لمصنف‎ :)١١ الشكل(‎ 


5 - التجارب والنتائج 

بناء على ما تم ذكره في الفقرات السابقة» سنقوم في هذه الوحدة بتطبيق هذه المفاهيم 
من الناحية العملية وعرض نتائج البحث. كا قلنا سابقا بأنه تم الاعتماد على قاعدة 
بيانات مدينة الملك عبد العزيز للعلوم والتقنية والحصول المتكونة من 57٠١‏ مقطعا 
صوتيا 01[ حيث أن هذه المقاطع الصوتية تم تصنيفها على صيغة CV‏ وصيغة CVC‏ 
بناء على مبداً التصنيف الشجري الحرمي المبني على قواعد التجويد والتي تحتوي على 
YY‏ صنفا رئيسيا. في بداية الأمر تم استخراج ۲۸١‏ خاصية لكل مقطع صوتي على 
النحو التالي: 
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* خوارزمية الطاقة وتم استخراج خاصية الطاقة لكل مقطع صوتي. 
° خوارزمية درجة حدة الصوت وتم استخراج أربع خصائص وهي معدل 
وتشتت del‏ وأقل قيمة درجة حدة صوت المقطع الصوتي. 
خوارزمية ترددات صفة صوت الكلام وتم استخراج ثلاث خصائص وهي 
معدل وتشتت وأعلى قيمة ترددات صفة صوت الكلام للمقطع الصوتي. 
° خوارزمية معاملات تردد ميل MFCC‏ وتم استخراج عشرين خاصية عن 
طريق إيجاد المعدل والتشتت لأول عشر معاملات الخوارزمية للمقطع الصوتي. 
* خوارزمية تحويل المويجات المنفصلة للطبقات السبعة حيث تم استخراج YOO‏ 
بعد استخراج هذه الخصائص للمقاطع الصوتية أصبح حجم مصفوفة استخراج 
الخصائص ٤٠٠×۲۸١‏ عنصرا. ثم بعد ذلك تم استخدام تقنية تحليل المكونات 
الأساسية PCA‏ بحيث تم تقليل حجم المصفوفة إلى 57٠0*60٠‏ والتي تحتوي على 
مجموع نسبة التشتت ما يقارب /4١‏ من نسبة التشتت للخصائص الحقيقية. ثم بعد 
على قواعد تجويد القرآن الكريم لتصنيفها إلى CV‏ و0770 ES‏ تم توضيحه سابقا. ثم 
بعد ذلك تم استخدام المصنفات التقليدية (MLP. KNN. SVM. NB)‏ حيث تم 
تدريب هذه المصنفات على A‏ من البيانات وعمل فحص /7١‏ المتبقية من البيانات. 
أعطى المصنف SVM‏ أفضل النتائج حيث كانت نتيجة دقة البيانات ما يقارب JA‏ 
للمقاطع الصوتية من نوع A * 5 CV‏ للمقاطع الصوتية من نوع CVC‏ 
إن هذه النتيجة لو قارنها بدون استخدام التصنيف ال هرمي لحصلنا على نتيجة ALES‏ 
Ut‏ يعني أنه باستخدام التصنيف الشجري المبني على قواعد التجديد يتم تحسين النتائج 
eT‏ : 
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ه- الخاتمة 

في هذا البحث تم عمل دراسة عن التعرف JII‏ على الكلام العربي المنطوق 
وتطبيقاته في القرآن الكريم باستخدام أنظمة الذكاء الاصطناعي. حيث تم في البداية 
الحصول على المقاطع الصوتية القرآنية من خلال قاعدة بيانات مدينة الملك عبد العزيز 
ومن ثم تم استخراج الخصائص هذه المقاطع الصوتية باستخدام خوارزميات مشهورة 
في Jle‏ معالجة الصوت. تبين أن حجم مصفوفة استخراج الخصائص هذه المقاطع 
الصوتية كبيرة وبالتالي تم استخدام تقنية تحليل المكونات الأسلسية PCA‏ لتقليل حجم 
المصفوفة واستخدام خصائص تخيلية تقوم بإعطاء الأوزان الأعلى للخصائص ال حقيقية 
الآهم وأوزان قليلة للخصائص الحقيقية الغير مهمة والتي بدورها أسهمت بشكل كبير 
في تحسين النتائج. ثم بعد ذلك تم استخدام خاصية التصنيف الهرمي بناء على قواعد 
التجويد القرآنية والتي بدورها قللت عدد الأصناف من ۸۰۰ صنف إلى YY‏ صنف. 
وني النهاية تم عرض أشهر المصنفات التي تسخدم في معالجة الصوت بشكل عام وفي 
القرآن بشكل خاص. 
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تحليل الآراء العربية إلكترونياً 
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va 

يتناول هذا الباب استعراضاً استقصائياً لموضوع التحليل JY‏ للآراء وتطبيقاته 
في اللغة العربية. يقدم الباب تعريفا تفصيليا بالملوضوع يتضمن شرحا للمهام المطلوبة 
لتميكن الحاسب الآلي من فهم الآراء» واستعراضا للمقاربات البحثية المختلفة لتنفيذ 
كل من هذه المهام مع مقارنتها والمفاضلة بينها كلما دعت الحاجة. كا يتضمن الباب 
عرضاً لأهم الخوارزميات التي اقترحها الباحثون للتنقيب عن الآراء وتصنيفها مع 
تسليط الضوء على ما استهدف اللغة العربية منها. يتطرق الباب كذلك إلى بعض 
التطبيقات الرئيسية لتحليل الآراء كتصنيف مراجعات المنتجات في المتاجر الإلكترونية» 
والتنقيب عن الآراء في الشبكات الاجتاعية. ويختتم الباب باستعراض موجز لبعض 
الموارد المفيدة في المجال من مجموعات نصية» ومعاجم آراء» ومكتبات برمجية. 


تحليل المشاعر والآراء 

تحليل المشاعر Sentiment Analysis‏ (ويعرف اها باالتنقيب عن GI NI‏ 
(Opinion Mining‏ هو أحد يجالات لسانيات الحاسب Computational JY‏ 
5 المتفرعة عن جال الذكاء Artificial Intelligence ;- Ul. 2 VI‏ « وهو 
واحد من أنشط فروع هذه العلوم بحثا نظراً لأهمية تطبيقاته ووفرة المحتوى النصى 
كميات مهولة من النصوص المحملة بآراء أصحابها تجاه كل أنواع القضايا التي يمكن 
تخيلها. 

تقوم خوارزميات تحليل المشاعر بتحليل النص اللغوي Sae‏ الكشف عن المشاعر 
التي يعبر عنها الكلام تجاه موضوع النص» وبين) تركز أغلبية الخوارزميات على تصنيف 
المشاعر إلى إيجابية أو سلبية أو محايدة» فإن بعض الخوارزميات تذهب إلى تصانيف أشمل 
يتضمن حالات شعورية أكثر تفصيلاً كالسعادة والحماسة والغضب والاشمتزاز» إلخ. 


1۹0 - 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
):َُ6ا ب ييا 


ولعل أهم العوامل التي ساعدت في نشأة وتطور هذا العلم هو تطبيقاته المهمة في 
محالات التسويق» وخدمة العملاء» وتطوير المتتجات» وقياس الرأي العام والعلوم 
السياسية» والدراسات الاجتاعية» وغيرها الكثير. حتى أصبح تحليل الآراء خدمة 
مدفوعة تقدمها شر كات متخصصة وتستفيد منها جهات عديدة (من شر كات ومنظيات 
وحكومات) معنية برصد وقياس آراء زبائنها أو مستخدمي منتجاتها أو المستفيدين من 
l Agua‏ 


نبذة تار يخية 

تعود أصول مجال تحليل الآراء والمشاعر إلى علم الفلسفة» وتستند الكثير من 
الدراسات الأولى في الموضوع إلى أفكار فريدريك نيتشه ونظرياته حول تعدد الآراء 
Perspectivism‏ التي تتلخص في أن الحقيقة ممكن أن تكون ذات أوجه متعددة» وأن 
كثير من القضايا التي يتجادل حوها الناس ليس لا حقيقة مطلقة بالضرورة1١]۲1]‏ 
IY]‏ 

الفيلسوف الأمريكي ريتشارد سكاشت درس أفكار نيتشه. وأعاد صياغتها بحيث 
فرق بين نوعين من الأفكار: الأفكار المرتبطة بحقائق Objective‏ « والأفكار التى تعبر 
عن رأي [E] Subjective‏ وتعتبر هذه الدراسات هى الأرضية الت كدت tlie‏ 
الكثير من الدراسات الحديثة في مجال تحليل الآراء. l l‏ 

ولا كان الكلام المكتوب والمنطوق هو الوسيلة الرئيسية للتعبير عن الأفكار 
ومشاركتها مع الآخرين» فقد انصب كثير من eleal‏ الباحثين في هذا المجال على 
دراسة العلاقة بين طبيعة الكلام المستخدم في الحديث والآراء التي يحملها المتحدث 
EVIE Co]‏ حتى ظهر مجال في علم اللغويات متخصص بدراسة اللغويات النفسية 
[A] Psycolinguistics‏ فعلى سبيل JA‏ درست الباحثة of‏ بانفيلد Ann Banfield‏ 
الجمل التي تعبر عن الحالة النفسية للمتحدث من حيث كونه يسرد حقائق موضوعية 
أو يعبر عن آراء» وعلاقة ذلك باختيار BUYI‏ والتعبيرات وتركيب الجمل EA]‏ كا 
ظهر jie‏ أكثر تخصصاً يتعلق باللغويات الاجتماعية L) +] Sociolingistics‏ وتم 
بدراسة الطرق المختلفة التي يستخدمها الناس للتعبير عن أفكارهم في أوضاع التفاعل 
الاجتماعي المختلفة كحال الاتفاق أو الإعجاب أو المعارضة إلخ. 
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وقد مثلت كل هذه الدراسات المختلفة أساساً بنى عليه الباحثون المهتمون بمجال 
معالحة اللغات مقارباتهم approaches‏ المختلفة لبناء أنظمة حاسوبية قادرة على تحليل 
الآراء التي يتم التعبير عنها بطريق الكلام. ومن الرواد في هذا المجال الباحثة جينيس 
ويب Janyce Wiebe‏ التي استفادت من دراسة بانفيلد سابقة الذكر لتطوير خوارزمية 
قادرة على اكتشاف bÍ‏ الكلام التي تظهر بشكل متكرر مع الحالات النفسية وفي 
الحالات الاجتاعية المختلفة .]١١[‏ ومن أمثلة الدراسات الريادية المهمة في هذا 
المجال كذلك ما قام به الباحث ستيفن جرين من تطوير خوارزميات قادرة على كشف 
أنماط الكلام التي تعبر عن ميول وتحيزات ضمنية لا يتم التعبير عنها بشكل صريح 
في الكلام» وقد تضمن بحثه إجراء دراسات لغوية اجتماعية واقعية متعددة لتدعيم 
استنتاجاته واختبار دقة خوارزميته [YT‏ 

ومن أوائل التطبيقات العملية الحديثة التى انصب عليها تركيز باحثى لغويات 
الحاسب JW‏ فيا يتعلق بتحليل الآراء: أنظمة Question Answering ilz, NI is‏ 
Systems‏ وكانت بؤرة التركيز فيها هي تطوير هذه الأنظمة بحيث تصبح- إلى جانب 
قدرتها على إجابة الأسئلة المرتبطة بحقائق- قادرة كذلك على إجابة أسئلة الرأي التي 
تحتمل أكثر من إجابة. 

وكان من أهم الجهود الريادية في هذا المجال ما قامت به الباحثة جينيس ويب عام 
۲ عندما نظمت ورشة عمل استمرت شهرين جمعت فيها عددا من الباحثين 
لدراسة كيفية استخدام الناس للغة للتعبير عن الآراء. وخرجت هذه الورشة 
بمجموعةٍ من التعريفات المحددة التي تميز الكلام الال للرأي عن الحقائق» ومعايير 
تصنيف الكلام الحال للرأي إلى كلام إيجابي أو سلبي أو محايد. كما قام المشاركون في 
هذه الورشة بتطبيق هذه التعريفات والمعايير على مدونة نصية Text Corpus‏ مأخوذة 
من مقالات إخبارية لتشكل هذه المجموعة ما يعرف الآن ب MPQA‏ والتى أصبحت 
al‏ اهم cole pal‏ العا الى lada‏ باع و كرات الاب od JS‏ 
واختبار خوارزميات تحليل الآراء .]١1[‏ 

ومع ظهور وانتشار مواقع التجارة الإلكترونية وإقبال الناس المتزايد على شراء 
احتياجاتهم عبر الإنترنت» ومع ما تقدمه هذه المواقع في الغالب للمشترين من إمكانية 
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التعليق على المنتجات التي قاموا بشرائها وتبيان ما أعجبهم وما d‏ يعجبهم فيهاء انصب 
اهتمام باحثي تحليل المشاعر والآراء على دراسة هذه التعليقات واقتراح خوارزميات 
تسهل على الباعة والمصنعين معرفة مقدار إعجاب الناس بمنتجاتهم مع تلخيص 
الجوانب التي لاقت استحسان المشترين والجوانب التي طاها نقدهم ]3£[ [Yo]‏ 
[IVIL]‏ 


ثم مع ظهور وانتشار مواقع الإعلام الاجتماعي والشبكات الاجتاعية» توفرت 
ميادين واسعة لمستخدمي الإنترنت للتعبير عن آرائهم تجاه كل القضاياء بل والخوض في 
جدالات حول مواضيع الاختلاف سواءً كانت هذه المواضيع تقنية أو فكرية أو سياسية 
[A]‏ استقطبت هذه الوفرة المهولة في النصوص IEH‏ للآراء جهوداً بحثية كثيرةً 
انصب جل اهتمامها على محاولة فهم اللغة التي يستخدمها الناس للتعبير عن آرائهم عبر 
وسائل التواصل الاجتماعيء والمفردات والتعبيرات التي يستعملها الناس في كلامهم 
حال الاتفاق أو الاختلاف» وكيف يمكن استخدام تقنيات معالجة اللغات لتحليل 
النصوص الحالة للآراء دف تصنيفها آليا وكشف علاقات الاتفاق والاختلاف بين 
أصحاها [۲۱1]۲۰1]۱۹]. 

ومن تطبيقات تحليل الآراء الأخرى التي لاقت Gea‏ متزايداً في السنوات الأخيرة 
دراسة طرائق التعبير عن الآراء في السياق الأكاديمي» وتحديدا عندما يشير الباحثون إلى 
Led‏ باون اعون شر راان عار ote Lr‏ عة اا لجال دات فا 
في معايير تقييم المساهمات العلمية للباحثين بحيث لا يتم الاكتفاء بتعداد الإشارات 
المرجعية التي يتلقاها العمل البحثي» بل يتم النظر Cal‏ إلى طبيعة الرأي المصاحب 
للإشارة وهل هو رأي مؤيد أم معارض لا جاء به البحث المشار إليه [Y £JEYY]EYY]‏ 


IYMEYe] 
تحليل الآراء العربية‎ 


جهود البحث في تحليل الآراء العربية جاءت متأخرة نوعاً ماء بعد أن وفر انتشار 
وسائل التواصل الاجتماعي وتعاظم أثرها عربيا وعالميا حافزا كبيرا لدى كثير من 
الباحثين من عرب وغيرهم لباشرة البحث في هذا المجال. ركزت الجهود الأولى على 
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مواءمة المقاربات المستخدمة لتحليل الآراء في اللغة الإنجليزية واللغات الأخرى 
للغة العربية» وتضمن هذا بناء موارد لغوية تخدم تحليل الآراء العربية كمعاجم آراء 
ومدونات لغوية Corpora‏ مصنفة يدوياً ومكتبات برمجية لتحليل الآراء [71] [YAT‏ 
T0 Y 4]‏ * . انتقلت الجهود البحثية في هذا المجال بعد ذلك إلى التعامل مع التحديات 
الخاصة باللغة العربية كتعدد اللهجات العربية EYYTEY YTEY Y]‏ ودراسة أثر المعالحة 
المسبقة للنص العربي (كالتحليل الصرفي والتجذير والتجذيع) على دقة تحليل الآراء. 

نُشرت العديد من الأبحاث الاستقصائية في السنوات الأخيرة حول تحليل الآراء في 
اللغة العربية ولخصت الجهود البحثية في المجال على اختلاف محاور تركيزها وتطبيقاتها 
والطرق التي استخدمتها والتحديات التي عالجتهاء وندعو القارئ المهتم إلى الرجوع 
إلى هذه الدراسات كقراءة مكملة لما يحتويه هذا الباب ]£ ”] ]0 [YATIY V] EY] [Y‏ 
IL£*1[Y4]‏ 


المهام الرئيسية في تحليل الآراء 

نستعرض في هذا القسم العمليات والمهام المختلفة التي تصدى لما الباحثون في Jle‏ 
تحليل الآراء» ونكتفي هنا بتعريف هذه المهام والإشارة إلى أهم الأبحاث التي تصدت 
لكل منهاء الشرح الأكثر تفصيلاً لطرق إجراء هذه المهام سنتطرق إليه في القسم التالي. 


٠‏ تمييز الكلام الحمال للآراء 

وتعتبر هذه المهمة (ويشار إليها في الأبحاث عادة باتحليل موضوعية الكلام» 
(Subjectivity Analysis‏ بمثابة المهمة الأساسية الأولى في معظم عمليات تحليل 
الآراء» وتستند الأبحاث الأولى فيها إلى الدراسات اللغوية النفسية والفلسفية 
والاجتاعية كما أشرنا آنفاً. 

الهدف من هذه المهمة هو التمييز بين الكلام الذي ينقل حقائق والكلام الذي يعبر 
عن رأي» فمثلاً قول أحدهم: ١كشفت‏ شركة سامسونج النقاب عن هاتفها الجديد يوم 
الخميس الماضي» El‏ ينقل خبراً يتعلق بهاتف سامسونج دون التعبير عن أي رأي أو أي 
مشاعر مرتبطة هذا الحدث أو موجهة تجاه الحاتف الجديد. قارن هذا ب: «الهاتف LAH‏ 
الذي أعلنت عنه سامسونج رائع» وفيه الكثير من الخصائص المميزة)» فالكلام في هذه 
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الحالة يعبر عن رأي صاحبه المتحمس للهاتف الجديد وما به من خصائص يراها مميزة. 

وغالباً ما يجرى هذا النوع من التحليل على مستوى الجمل» حيث يتم تصنيف كل 
جملة في النص إلى جملة موضوعية عكناء»ء زط0أو ils‏ معبرة عن رأي Ie! Subjective‏ 
على ما تحويه الجملة من EYE VI BUÍ‏ فالجمل الحالة للرأي تتميز باحتواتها على 
صفات (إيجابية أو سلبية) مثل «رائع» و)المميزة» كما في المثال السابق» في حين أن الجمل 
الموضوعية تحتوي DU‏ على أرقام أو تواريخ أو غيرها من التعبيرات التي يكثر اقترانها 
بنقل الحقائق أو توثيق الأحداث. 

وإذا لزم تصنيف موضوعية نص كامل فإن ذلك يتم بطريقة à‏ إحصائية في الغالب من 
خلال رصد موضوعية الحمل المكونة للنص» » فكلا زادت نسبة الجمل IH‏ للرأي في à‏ 
النص» اعتبر النص في مجمله أكثر ميلاً نحو كونه نصاً معبراً عن رأي والعكس صحيح 

٠‏ تحديد قطبية الكلام 

بعد تحديد الكلام الحمال للرأي تأتي المهمة التالية وهي التعرف على نوعية المشاعر 
التى يعبر عنها النص. الغالبية الراجحة من الدراسات ركزت على تصتيف المشاعر إلى 
مشاعر سلبية ومشاعر إيجابية مع إمكانية التمبيز بين درجات مختلفة من قوة أو ضعف 
الإيجابية أو السلبية. ويطلق على الخاصية التي تصف الكلام من حيث كونه سلبياً أو 
إيجابياً في الأوساط البحثية ب «قطبية الكلام» Text Polarity‏ وتعرف أيضاً ب»الانحياز 
المعنوي») Semantic Orientation‏ 

تطرقت أبحاث eo‏ الكلام إلى دراسة القطبية على مستويات مختلفة ابتداءً 
من قطبية الكلمات وصولا إلى قطبية النصوص الكاملة. 

٠‏ تمييز قطبية الكلمات: 

Ag y‏ هذه العملية إلى تصنيف الكلمات الواردة في النص إلى كلمات إيجابية (مثل: 
جميل» حسن» رائع» كريم» إلخ) أو كلمات سلبية (مثل: سيء» رديء» هزيل» بخيل؛ 
إلخ) أو olds‏ محايدة (مثل: Tere‏ مَع» كتاب» شارع» إلخ). للوهلة الأولى قد تبدو 
هذه العملية سهلة وأن الكلمات السلبية والإيجابية يمكن حصرها في معجم حصراً 
يدوياً (وهو ما قام به العديد من الباحثين في مجال اللغويات النفسية والاجتماعية بالفعل 
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[£o] [££] ]5"[ 13‏ ولكن هذه العملية في الحقيقة تحيط بها تحديات متعددة 
تجعل المعاجم اليدوية غير قادرة على تلبية احتياجات معظم تطبيقات تحليل الآراء: 

a °‏ البدوية ee ls aZ goi‏ عن مر كل اللات 
التى تحمل دلائل قطبية» خاصة أن كثيرا من تطبيقات تحليل الآراء تجري على 
نصوص منشورة على الإنترنت حيث تظهر مقردات جنديدة باستمرار للتعبير 
عن معاني سلبية أو إيجابية (مثل وصف الأفكار بأنها «داعشية» - وهو dà)‏ 
مستحدث لا تحويه معاجم القطبية)» ويغلب استعمال الكلام العامي» ويكثر 
استعال الاختصارات (مثل استعال 878 كاختصار ل «(great‏ واستعمال 
الوجوه التعبيرية» وغيرها. 

٠‏ كما أن معاجم القطبية متوفرة لعدد محدود من اللغات فقطء في حين أن عدد كبير 
من اللغات لا توجد لها معاجم قطبية على الإطلاق أو أن ما هو متوفر منها يعاني 
من محدودية المحتوى وغياب الاهتام بتحديثه. 

٠‏ كذلك توجد كلمات كثيرة تحتمل glas‏ متعددة ويختلف معناها بحسب 
السياق» وبناءً على المعنى المقصود قد تتنقل قطبيتها بين إيجابية وسلبية ومحايدة» 
Ses‏ كلمة «أسد» في معناها الغالب هي اسم ole‏ مفترس» ولكن في 
سياقات معينة SS‏ ها دلالة يجابية كقوهم ا M‏ يراد 
منه التعبير عن صفات الشجاعة والقوة. تتجنب المعاجم القطبية إدراج هذه 
لكات لان الغالب عليها هو الم ted‏ فى جن أن كارن قات 
تحليل الآراء تحتاج إلى أن تكون قادرة على التعرف على المقصد القطبي oib‏ 
الكلات. 

خيراًء تختلف الكلمات القطبية في مقدار قطبيتهاء فكلمة GU‏ -مثلاً- تتعبر 
قوی في دلالتها الإيجابية من كلمة مثل «جيد». مثل هذا التقدير لدرجة الإيجابية 
أو السلبية غير متاح في الغالبية العظمى من المعاجم القطبية» وما هو موجود 
منها يكتفي بتصنيف قطبية الكلمات إلى قوية وضعيفة فقط. 


-Í 
si 


eyes 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
n—UuUÓ L|‏ 


بسبب هذه التحديات ومحدودية المعاجم اليدوية انصب eleal‏ كثير من الباحثين 
الأوائل في مجال تحليل الآراء على البناء الآلي للمعاجم أو الإثراء الآلي للمعاجم اليدوية 
الموجودة» واستخدم الباحثون طرقا متعددة لتحقيق هذا الهدف نستعرض بعضا منها 
في الفقرات التالية. 

استندت كثير من هذ الطرق إلى فرضية أن الكلمات التى تحمل دلالات قطبية 
متشابية تظهر I‏ في مواضع متقاربة فمثلاً ذا كان هناك نص يبدي Uy‏ اء ميج 
جديد» وإذا كنا نعرف قطبية بعض الكلمات الواردة في هذا النص» فيمكن افتراض 
أن باقي الصفات الواردة في النص من الممكن أن تحمل قطبية مماثلة» وإذا أجرينا هذا 
الرصد للظهور المتزامن ALI‏ معروفة القطبية مع بقية الكلمات على كمية ضخمة 
جداً من النصوص يصبح من الممكن رصد علاقات اقتران إحصائية تقود إلى تخمين 
قطبية الكلمات غير معروفة القطبية. فمثلا الكللات التي تتكرر على مقربة من كلمات 
معروفة الإيجابية يمكن افتراض أنها إيجابية» والأمر كذلك مع الكلمات التي تتكرر مع 
كلمات سلبية» أما الكلمات التي ترد بنفس مقدار التكرار مع كلمات إيجابية وكلمات 
سلبية فيمكن افتراض آنا كلمات متعادلة القطبية [ES]‏ 

حاولت مقاربات أخرى النظر إلى الطريقة التي ترتبط فيها الصفات التي تتجاور في 
اللصرص وتتصلها خروف عط أوتخروقة ابسدراك أرما كتايد وعاولات استاج 
القطبية للكليات مجهولة القطبية بمساعدة الكلمات ذات القطبية المعروفة. فمثلاً إذا 
احتوى نص على شيء من قبيل: «جميل ورائع» وكانت قطبية ١جميل»‏ معروفة مسبقاً 
فإن حرف العطف «و» يوفر قرينة قوية Ob‏ كلمة «رائع» تحمل نفس القطبية. أما إذا 
احتوى نص على تعبير مثل: «جميل لكنه مزعج»» وكانت قطبية «جميل» معروفة» فإن 
حرف الاستدراك «لكن» يمنح قرينة قوية Ob‏ كلمة «مزعج» ها قطبية معاكسة [£V]‏ 

عمدت طرق أخرى إلى الاستفادة من شبكات الکلات Word Networks‏ وهى 
cols‏ 451 كز lg node xli‏ عار فى dads‏ رة dmg cA sl dag‏ بوا 
JA edges‏ علاقات ترادف أو تضاد أو غيرها من العلاقات المعنوية Semantic‏ 
95 الطرق التي تعتمد على هذه الشبكات تستخدم خوارزميات التعلم 
JYI‏ شبه الموجه Semi-supervised learning‏ للتعرف على قطبية الكلمات المختلفة 
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في الشبكة انطلاقاً من عدد قليل -نسبيا- من الكلمات معروفة القطبية يتم اختيارها 
يدوياً [EA]‏ 

من هذه الخوارزميات ما يعتمد على التنقل العشوائي في الشبكة «Random Walks‏ 
ولتحديد قطبية كلمة ما باستخدام هذه الطريقة فإن عملية التنقل العشوائي تنطلق 
من تلك الكلمة وتستمر في التنقل العشوائي عبر الشبكة حتى تصل إلى كلمة معروفة 
القطبية» ويتم تكرار هذه العملية مرات كثيرة لكل كلمة» وفي النهاية يتم تعيين قطبية 
للكلمة بحسب القطبية التى غلبت على الكلات ذات القطبية المعروفة التى توقفت 
عندها عملية التنقل في كل محاولة. أما في حال تعذر إيجاد أغلبية واضحة لإحدى 
القطبيتين فيتم اعتبار أن الكلمة ذات قطبية متعادلة £41[ 

حاولت مقاربات أخرى إثراء المعاجم القطبية للغات التي تعاني من فقر المعاجم 
وفقر الموارد النصية التي تتيح بناء معاجم آلية ها (كقلة المحتوى المكتوب بتلك اللغة 
عبر الإنترنت مثلا) من خلال الاستفادة من معاجم لغات أخرى تتميز بثراء معاجمهاء 
ومن هذه الطرق مثلاً ما يعمد إلى بناء شبكات كلمات متعددة اللغات Multi-lingual‏ 
Word Networks‏ من خلال استخدام القواميس وربط الكلمات بتر حماتها من اللغات 
المختلفة. يتبع ذلك استخدام خوارزميات كالتي عرضناها في الفقرة الماضية لاستنتاج 
قطبية الكلمات غير معروفة القطبية في اللغات المختلفة انطلاقاً من بعض كلمات معروفة 
يتم اختيارها يدوياء کا هو مبين في شكل ١‏ 0*1[ 
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الأولى -يمين- تحتوي على كلمات معر وفة القطبية»‎ opik للغتين‎ WordNet يوضح شبكتين‎ Y شكل‎ 
والثانية -يسار- تخلو من هذه المعلومات ولكنها مرتبطة بالشبكة الأخرى من خلال ترجمة الكلمات‎ 
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٠‏ التعرف على قطبية الجمل والفقرات 

Soupes asas en د‎ eL Ael 
معزول عن سياقها الذي وردت فيه. في هذا القسم سنتحدث عن مهمة أكثر تعقيدا‎ 
السياق له دور كبير‎ OM وهي التي يؤخذ فيها السياق بعين الاعتبار» وهي خطوة مهمة‎ 
في تحديد قطبية الكلمة» ونستعرض فيا يلي بعض الحالات التي يؤثر فيها السياق على‎ 
الكلمات مع ذكر أمثلة على كل منها.‎ 

٠‏ بعض الكلمات تحتمل أكثر من معنى. فقد تستخدم الكلمة في سياق فتحمل 
معنىّ إيجابياً وقد تستخدم في سات آخر فتحمل معنىّ سلبياً أو تكون محايدة 
ومثال ذلك كلمة «أسد» كما أوردنا سابقاً. مثال آخر كلمة «عين»» فقد QU‏ 
us‏ محايد کا في: «اشتريت قطرة ose‏ لعلاج الاحمرار»» أو بمعنىّ إيجابي 
عندما تستخدم استخداما مجازيا کا في «ابني هو عيني ولا غنى لي عنه»» أو 
cr‏ سلبي کا في «كان Cae‏ للأعداء» أي «جاسوسا». 

* إذا وردت الكلمة القطبية في سياق نفي فإن قطبيتها تنعكس. فمثلاً في جملة: 
«لا أحب الباذنجان» الأصل في كلمة «أحب» أنها موجبة القطبية» ولكن ورود 
حرف C»‏ في بداية الجملة» ووقوع كلمة «أحب» في نطاق نفيهاء قلب قطبيتها 
من موجبة إلى سالبة. 

٠‏ قد ترد الكلمة القطبية في سياق نفي ولكن لا يؤدي النفي إلى عكس قطبيتها 
بالضرورة» ولكن يؤدي إلى التقليل من قوة قطبيتها Sentiment utens?‏ 
cty‏ فمثلاً في جملة «لا أحب الباذنجان كثيراً» برغم أن كلمة «أحب» وردت 
في سياق النفي» إلا أن تذييل الجملة باكثيرا» قد جعل المنفي هو كثرة المحبة 
وليس أصلها. 

* قد ترد الكلمات القطبية في سياق السخرية ويكون مقصد قائلها معاكساً 
لقطبيتها الظاهرة. فمثلاً قد يقول أحد للآخر «يا ذكي» في سياق من السخرية 
يكون مقصله فيه أن الموجه إليه الكلام قليل الذكاء وهو ما يعاكس ظاهر 
المعنى. ويعتبر التعامل مع حالات السخرية في الكلام من أصعب مشكلات 
تحليل الآراء» وذلك zz OY‏ الكلام الجاد من الكلام الساخر يحتاج في أغلب 
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الأحيان إلى معرفة الثقافة اللغوية السائدة بين المتحدثين» وهو ما يتجاوز كثيراً 
نطاق النص الذي يجري تحليله. 
للتعامل مع هذه التحديات التي تستوجب إدراك السياق حاولت بعض طرق تحليل 
الآراء استخدام بعض الخوارزميات المبنية على قواعد مصاغة يدوياًء مثلاً في حال ورود 
كلمة نفي في الجملة يتم عكس قطبية كل الكلمات القطبية الواردة في نفس الجملة وعلى 
بعد مسافة محددة من أداة النفي وهكذاء ولكن هذه الطرق تعاني من عدم مقدرتها على 
اكتشاف كل أنواع السياق المؤثرة في قطبية الكلام. ولذلك فإن الكثير من طرق تحليل 
الآراء قد اعتمدت على تقنيات تعلم الآلة Machine Learning‏ سواءً الطرق التقليدية 
منها أو طرق التعلم العميق å .Deep Learning‏ حالة طرق تعلم الآلة التقليدية 
ينصب جهد الباحثين على تعريف إشارات وخصائص Features‏ ممكن إيجادها في 
النص ويمكن أن يكون لا أثر في قطبية الكلام» ومن أمثلة هذه الخصائص ما يلي: 

٠‏ الكلمات المجاورة (الكلمة السابقة والتالية (Ss‏ للكلمات القطبية في الجملة. 

e‏ وجود أداة نفى في الجملة» والمسافة -مقاسة بالكلمات- بين أداة النفى والكلمات 
القطبية في الجملة. 

* وجودكلات تقو ية Intensifiers‏ أو تضعيف Downtoners‏ مقترنة بالكلمة 
القطبية مثل: GIL)‏ (بقوة)» «Sua» REES) ÁS‏ إلخ. 

٠‏ العلاقات الإعرابية بين الكليات في الجملة» ee‏ بين الكلمة القطبية وغيرها 
من الكلمات كأدوات النفى أو كلمات التقوية والتضعيف وغيرها. 

٠‏ احتواء الجملة على وجوه تعبيرية «Emoticons‏ أو علامات ترقيم (مثل 
علامة تعجب أو علامة استفاهم)» أو رموز تزينية» أو وسوم تصنيفية 
9 أو التطويل لبعض الحروف في بعض الكللات كما في 

et -‏ أو تكرار الحروف كم في eq o»‏ إلخ. 

هذه الخصائص يتم تعريفها لكل جملة أو فقرة في النص» وعند توفر كمية كافية 
من الجمل أو الفقرات معروفة القطبية» يتم تدريب خوارزميات تعلم الآلة على هذه 
الأمثلة» حتى تصبح قادرة على تخمين قطبية أي جمل أو فقرات أخرى. 
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مؤخراً -ومع الوفرة الكبيرة للبينات المحملة بالآراء المنشورة على الإنترنت- 
شهدت تقنيات تحليل الآراء صعود الطرق المعتمدة على التعلم العميق» وفيها ينصرف 
تركيز الباحثين عن تعريف خصائص صريحة لاكتشاف القطبية في ضوء السياق إلى 
التركيز على بنية النموذج العميق Model Architecture‏ الذي يراد تدريبه. وسوف 
نتحدث بقدر أكبر من التفصيل عن هذه الطرق لاحقاً في هذا الباب. 

٠‏ التعرف على مصدر الرأي 

كثير من تطبيقات تحليل الآراء تبتم بتمييز الآراء المنقولة عن آخرين. Wiad‏ عند قول 
أحدهم: «صديقي يكره منتجات شركة آبل» ولكني أحبها»» نجد أن التعبير السلبي 
«يكره» ليس مقترنا بالمتحدث صاحب النص» ls‏ هو ينقل مشاعر مصدرها مختلف. 
ولذلك op‏ طرق تحليل الرأي في مثل هذه التطبيقات تحتاج إلى ربط كل تعبير قطبي في 
النص بمصدره والتمييز بين كونه مقترناً بالكاتب أم بمصدر آخر. 

٠‏ التعرف على المستهدف بالرأي 

كثير من تطبيقات تحليل الآراء #بتم أيضاً برصد رأي صاحب النص تجاه منتج محدد 
أو خدمة محددة» ولذلك يلزم معرفة المستهدف بكل تعبير قطبي في النص. فمثلا إذا قال 
أحدهم: Ub‏ أحب هواتف آبل» ولكني أكره أجهزتها اللوحية»» تحتاج أكثر تطبيقات 
إلى القدرة على تميبز أن مشاعر المحبة موجهة للهواتفء بين| مشاعر الكره موجهة نحو 
اللوحيات.وليس العكس: 

كذلك op‏ كثير من تطبيقات تحليل الآراء تتطرق إلى رصد رأي الناس في خدمات أو 
منتجات متعددة الجوانب» ومن الممكن أن يختلف تقييم الناس لكل من هذا الجوانب» 
فمثلاً عند قيام المستخدمين بتقديم تقييم نصي لأحد المطاعم Op‏ هذا التقييم قد يتطرق 
إلى جودة الطعام» ترتيب ونظافة مكان الجلوس, لباقة النادل» الأسعار إلخ. فمثلاً في 
تعليق مثل: «الطعام لذيذ جداء وتعامل طاقم المطعم راق» ولكن الضوضاء في المكان 
شديدة والإضاءة ضعيفة» نجد خليطا من آراء إيجابية وسلبية. وتحتاج كثير من تطبيقات. 

ونظراً لأهمية هذا الربط بين الرأي والجانب المستهدف بالرأي لأكثر تطبيقات تحليل 
الآراء فقد ظهر dle‏ خاص يعرف HEG‏ الآراء متعدد الجوانب.» Aspect-based‏ 


.Sentiment Analysis 
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وتعتمد الطرق التقليدية المهتمة بمعرفة مصدر ووجهة الرأي على تحليل العلاقات 
الإعرابية في الجملة بين الكلمات القطبية والكلمات الأخرى لاسي الجمل الاسمية 
Noun Phrases‏ والكيانات المسماة LÍ .Named Entities‏ طرق التعلم العميق 
فتحاول كشف العلاقات الإعرابية بشكل ضمني من خلال iz‏ النموذج Model‏ 
Architecture‏ الذي يتم تدريبه دون أن يتم إجراء عملية الإعراب نفسها بالضرورة. 


" مهام متقدمة لتحليل المشاعر 

المهام التي تناولناها في الفقرات السابقة تعتبر مهام أساسية ولازمة للغالبية العظمى 
من تطبيقات تحليل الآراء. نتناول هنا على عجالة بعض المهام المتقدمة التي قد تحتاجها 
بعض تطبيقات تحليل الآراء. 

٠‏ تلخيص الآراء 

كما ذكرنا سابقاً op‏ العديد من تطبيقات تحليل الآراء تتعامل مع حالات تتعدد فيها 
الجوانب التي يستهدفها الناس بآرائهم» مثل تعليق الناس على أحد المنتجات كهاتف 
مثلاً فيستحسنون جودة الكاميرا مثلاً ولكنهم يتضجرون من قصر عمر البطارية أو 
يعجبهم الشكل الأنيق للهاتف ولكن يضايقهم تأخر استجابة شاشة اللمس وهكذا. 

في هذه التطبيقات لا يكفي وسم تعليق المستخدم بأنه إيجابي أو سلبي بمجمله بل 
يجب تفصيل الجوانب الإيجابية والجوانب السلبية من وجهة نظر كل مستخدم. 

تهدف مهمة تلخيص الآراء إلى تصنيف الآراء المختلفة للمستخدمين من حيث 
الجوانب التي استهدفتها آراؤهم» بحيث يتم وضع الآراء الخاصة بكل جانب في مجموعة 
واحدة ثم يتم تصنيفها إلى إيجابية وسلبية. ثم يتم تطبيق آليات تلخيص النصوص Text‏ 
3 على مجموعة النصوص الخاصة بكل منهماء ويكون المخرج النهائي 
هذه العملية هو ملخص مفصل يعرض كل جانب على حدة وأهم الآراء الإيجابية 
والسلبية التي استهدفت كل جانب. 
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. تتبع تطور الآراء 

يحاول الباحثون المهتمون بهذا النوع من تحليل الآراء دراسة الطبيعة الديناميكية 
للآراء وتتبع تطورها وتغيرها مع الوقت. ففي حالة تحليل آراء المستفيدين من خدمة ما 
E‏ يكون من المفيد تتبع التغير الذي يطرأ على آرائهم بعد إجراء أي تغييرات 
في الخدمة» وملاحظة كيف تيل الآراء نحو الإيجابية أو السلبية كردة فعل من طرف 
المستفيدية. 

كذلك في مجموعات النقاش عبر الشبكات الاجتاعية» تهتم العديد من الدراسات 
الاجتماعية برصد كيف يؤثر سير النقاش على آراء المشاركين فيه وإذا ما كان أحدهم 
سيغير رأيه مع مرور الوقت» وتأثير سير النقاش كذلك على الرأي المبدئي الذي يتبناه 


من ينخرط في النقاش متأخراً. 


٠‏ رصد انقسام مجموعات النقاش حول موضوع النقاش 

من مجالات الدراسة التي يعنى بها الباحثون في Jle‏ تحليل الآراء دراسة انقسام 
المنخرطين في نقاشات جدلية حول موضوع النقاش» ودراسة اللغة التي يستخدمونها 
في التعبير عن انقسامهم. ويتم تطبيق هذه الدراسات غالبا على الحوارات التي تحوي 
العديد من منشورات الأخذ والرد بين المشاركين في النقاش كا في منتديات الحوار 
وغيرها من وسائل التواصل الاجتماعى؛ فيحاول الباحثون تحليل المنشورات التى 
يكتبها كل مشارك وتحديد ما إذا كانت تعبر عن اتفاق أو اختلاف مع رأي المنشور السابق 
الذي جاءت ردا عليه فمثلاً إذا بدأ المشارك تعليقه على منشور سابق بقوله: «هذا رأي 
خاطى» أو «أنا أختلف مع هذا الرأي» أو ما شابه ذلك تحاول هذه الخوارزميات أن 
تستنج أن صاحب الرد وصاحب التعليق الأصلي على طرفي نقيض فيا يتعلق بموضوع 
النقاش. وتذهب الدراسات إلى أبعد من ذلك فهي تحاول كذلك أن ترصد مواطن 
الاتفاق والاختلاف بين المتحاوريين» فقد يختلف متحاورين حول أحد جوانب النقاش 
ولكن قد يختلفان في جانب آخر من مثل: «أتفق معك في كذاء ولكنى أخالفك cel JI‏ 
في كذا». تحاول الأبحاث في هذه الحالة بناء «(سجل انطباعات» Attitude Profile‏ لكل 
مستخدم تسجل فيه انطباعات المستخدم السلبية أو الإيجابية تجاه المستخدمين الآخرين 
وتجاه الجوانب المختلفة لموضوع النقاش. 
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تستند كثير من هذه الدراسات إلى نظريات في العلوم الاجتماعية كنظرية التوازن 
البنائي Structural Balance Theory‏ والتي ترصد ظواهر اجتاعية متكررة تفسر 
انقسام الناس حول الآراء المختلفة مثل «صديق صديقي صديقي» و«عدو عدوي 
صديقي»» وهكذا. 


٠‏ رصد التأثير على الآراء في المناظرات 

تحاول الدراسات المهتمة بهذا الجانب رصد عملية التأثير التي تجري في الحوارات 
التي تدور عبر منصات ال حوار الإلكتروني كالشبكات الاجتماعية وما شابههاء والتعرف 
على الأشخاص المؤثرين الذين يوجهون سير النقاش ويؤثرون في آراء غيرهم من 
المشاركين وربط هذا با لدم من قوة اجتماعية ihla g Social Power‏ على الآخرين 
.Social Authority‏ 


ثمة فرع من تحليل الآراء يتجاوز تصنيف الآراء لسلبية وإيجابية ويقترح تصنيفات 
أكثر تفصيلاً تتضمن مشاعر مثل الغضب» والحزن» والملل» والسعادة» dus‏ إلخ. 
ولكن الدراسات في هذا الجانب ما زالت قليلة نسبياً نظراً لقلة البيانات المتاحة التى 


يتوفر فيها نصوص مكتوبة مقرونة بمشاعر تفصيلية. 


طرق تحليل الآراء 

في هذا الباب نستعرض المقاربات المختلفة التي استعملها باحثو تحليل الآراء لإجراء 
المهام التي عرضنا بعضا منها في الجزء السابق من هذا الباب. 

نبدأ بعرض عمليات المعالجة المسبقة Preprocessing‏ التي يلزم القيام بها قبل البدء 
بعمليات تحليل الآراء مع التركيز هنا على ما تحتاجه اللغة العربية. يتبع ذلك استعراض 
لثلاثة مدارس في تحليل الآراء مع تقديم أمثلة لكل منها وعقد المقارنات بينها كلما 


قضت الحاجة. 
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5 المعالجة المسبقة للنصوص 

هي خطوة Rega‏ يجب إجراؤها قبل البدء بتحليل الآراء» خاصة عند التعامل مع 
اللغة العربية» وقد بينت الدراسات أن هذا النوع من المعالجة له أثر واضح في دقة 
عمليات تحليل الآراء التى تتبعها CON]‏ وتعود الأهمية الخاصة لإجراء هذه المعالحة 
لنصوص اللغة العربية لما تتميز به من ثراء المفردات» وكثرة أشكال الصرف» وغياب 
التشكيل من معظم النصوص العربية المكتوبة مع ما يخلقه هذا من غموض لعاني بعض 
الكلمات» وتعدد اللهجات العربية» وغيرها. وتتضمن عمليات المعالجة المطلوبة في 
اللغة العربية ما يل: 


. تقطيع الكلام (إلى كليات أو وحدات نصية) :Tokenization‏ 

وتسمى هذه العملية أيضا بالتحليل اللفظي Lexical Analysis‏ ويقصد به تقطيع 
النص إلى وحدات Tokens‏ تتكون كل وحدة منها من أحرف أو أرقام أو رموز متصلة 
كالكلمات أو الأعداد أو علامات الترقيم» مع تحديد موضع بداية ونهاية كل وحدة. 


Orthographic Normalization تسوية الكلام‎ ٠ 
وتهدف إلى تنقية النص من الشوائب الكتابية كالرموز الزائدة وعلامات الترقيم‎ 
والتأكد من توحيد الأناط المختلفة لكتابة الشىء‎ s غير المامة لعملية المعالجة‎ 
الواحد (مثل إثبات أو ترك رسم الهمزة في الألف المهموزة)» والتخلص من التطويل»‎ 
والتخلص من الحروف المكررة كا في «راااائع». وإزالة التشكيل إذا كان غير لازما في‎ 

عمليات المعالجة التالية أو غير متوفر بشكل شامل لكل النص المكتوب. 

وقد بينت بعض البحوث المتعلقة بمعالحة اللغة العربية أن إجراء عمليات التسوية 
على النصوص العربية له تأثير ملحوظ على جودة وكفاءة عمليات المعالجة اللاحقة 
للنص [0Y]‏ 


Morphological Analysis T التحليل الصر‎ ٠ 
وتهدف عملية التحليل الصرفي للكلمات إلى دراسة بنية الكلمة بغرض التعرف على‎ 
القسم الصرفي للكلمة» كتحديد هل هي جمع أم مفرد» صيغة تذكير أم تأنيث» صيغة‎ 
مضارع أم أمر للأفعال ... إلخ» كما #بدف إلى تحديد جذر الكلمة وتحديد‎ el " 

asl y‏ التي أدخلت على الجذر لصرفه. 
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وهذه العملية مهمة جداً لتحليل الآراء ففي حال الاعتماد على المعاجم القطبية 
لإجراء عملية التحليل فإن المعاجم المتاحة لا تحوي كل أشكال الصرف للكلمة 
القطبية» فمثلاً قد يحتوي المعجم على كلمة «رائع» ولكنها لن تحوي ربا كلمات مثل 
«رائعة» رائعان» رائعين» رائعون» رائعين» إلخ. ولهذا فإن عملية التحليل الصرفي تساعد 
عمليات التحليل التالية في إدراك أن كلمة مثل «رائعان» مرتبطة بكلمة «رائع» الموجودة 
في المعجم. 

كذلك في اللغة العربية قد تدخل الضمائر على الكلمة» فمثلاً قد يحتوي نص ما على 
كلمة مثل «حسناتهم»» والتي هي مكونة من قسمين: caola)‏ وهي جمع احسنة) 
والضمير ID‏ فالمعاجم القطبية قد تحوي كلمة مثل ١حسنة»‏ ولكنها لن تحوي 
الأشكال الصرفية الأخرى أو الحالات التي يدخل فيها ضمير على الكلمة. 


Stemming and Lemmatization التحذير و التجذيع‎ ٠» 
عمليتان تحاولان تجريد الكلمات من الزوائد الصرفية التى تدخل عليها‎ U^; 
وتحويل الكلمة إلى جذرها الصحيح (كما في التجذير) أو صورة قريبة من الجذر (كا في‎ 
التجذيع)» ويلجأً الباحثون إلى استخدام هذا النوع من المعالجة مع الطرق المعتمدة على‎ 
يدف تصغير فضاء المعرفة اللغوية الذي تحتاج الخوارزميات إلى تعلمه حتى‎ UYI تعلم‎ 

تتمكن من تحليل النصوص وتصنيفها. 

Co-Reference Resolution الكشف عن الإشارات المشتركة‎ ٠ 

ويقصد به التعرف على الإشارات المختلفة في النص التي تشير إلى الشيء نفسه سواءً 
كانت هذه الإشارات على شكل ضمير يعود على الشىءء» أو إشارة إلى الثبىء باختصار 
أو جزء من الاسم. فمثلاً في جملة: «أفضل شركة سامسونج على آبل بسبب تجربتي 
السيئة مع منتجاتها»» الكلمة القطبية (LA‏ موجهة نحو منتجات الحهة المشار إليها 
بالضمير «ها» الملتصق بالكلمة» وحتى تتمكن تقنيات تحليل الآراء من ربط هذا الرأي 


القطبي بشكل صحيح يلزم تميبز أن الضمير «ها» هنا يشير إلى شركة آبل کا هو مفهوم 
فق السياق: 


-\Y\- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
n—UuUÓ L|‏ 


Part of Speech Tagging eS تصنيف أقسام‎ ٠ 
ويتم فيها تصنيف كل كلمة في النص بحسب حالتها الصرفية وبحسب سياقها‎ 
الإعرابي» كتصنيف الكلمة من حيث كونها فعل أو اسم أو حرف» وتمييز الفعل من‎ 
et حيث كونه ماضيا أو مضارعاً أو أمراًء أو تصنيف الاسم على أنه مفرد أو مثنى أو‎ 
وتمييز الحروف على أنها أدوات عطف أو وصل أو تأكيد» وتمييز الأسماء إلى صفة أو‎ 

حال» أو غير ذلك. 

وهذه العملية مهمة لحاجة تطبيقات تحليل الآراء إلى التعرف على الصفات. فكثير 
من الكلمات القطبية صفات» كما أن هذه العملية تسهم في كشف الغموض الذي قد 
يكتنف بعض الكلمات إذا ما عوملت منفصلة عن سياقها. مثال لذلك في اللغة العربية 
كلمة «ذهب» ففي بعض السياقات هي اسم معدن ثمين وتستخدم بشكل متكرر كصفة 
إيجابية» وني سياقات أخرى هي فعل ماض للمفرد الغائب. 

Dependency Parsing الإعراب‎ Syntactic Parsing تحليل البناء النحوى‎ ° 

eas da el a e a 
الكلات المكوثة‎ ted s مثلاً أن جملة ما نتكون من شرط وآداة شرط وجواب‎ 
. Verb Phrase أو عبارة فعلية‎ Noun Phrase لعبارة اسمية‎ 

ul‏ الإعراب فيهدف إلى كشف العلاقات الاعتمادية والمعنوية بين الكلات» مثل 
تحديد الفاعل والمفعول به والمفعول ede‏ إلخ. 

وكا ذكرنا سابقاً فإن الكثير من طرق تحليل الآراء على مستوى الجمل تحتاج إلى 
تحليل البناء النحوي والإعراب حتى تتمكن من ربط الكلمات القطبية بمصدرها 
وبالجهة التي تستهدفهاء وتحتاجه كذلك لتعرف إذا كانت التعبيرات القطبية تقع في 
سياق منفي مثلا o‏ يستدعي عكس قطبيتها. 

والآنء نستعرض طرقاً ختلفة لتحليل الآراء نصنفها إلى: 

* طرق تعتمد على خوارزميات مصاغة بشكل يدوي Hand-crafted Rules‏ 

وتستخدم موارد لغوية كمعاجم قطبية وغيرها. 
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bs *‏ تعتمد على تقنيات تعلم الآلة التقليدية. 

* وطرق التعلم العميق. 

وهذا التصنيف يمثل أيضاً التطور الزمني الذي مرت به طرق تحليل الآراء» فالطرق 
المعتمدة على الخوارزميات اليدوية والمعاجم القطبية تمثل المحاولات الأولى لتحليل 
الآراء وقد عمد إليها الباحثون في ظل ندرة النصوص المقترنة بقطبية معروفة بشكل 
يمكن استخدامه لتدريب خوارزميات تعلم الآلة» ثم مع توفر مثل هذه البيانات بدأت 
تبرز الطرق المعتمدة على تعلم الآلة كبديل قوي حل محل الخوارزميات المصاغة بشكل 
يدوي» ثم مع اتساع نطاق الإنترنت وزخم البيانات الذي شهدته الشبكات الاجتاعية 
وتوفر كميات مهولة من البينات المصحوبة بآراء معروفة القطبية» برزت تقنيات التعلم 
العميق وأصبحت هي الآن الخوارزميات الأساسية المستخدمة في تطبيقات تحليل 
الآراء. 


Sentiment Lexicons الطرق المعتمدة على المعاجم القطبية‎ - ١ 

هذه الطرق تستخدم خوارزميات يتم تطويرها بشكل يدوي وتعتمد على دراية 
مطورها بالمجال الذي يجري تحليل الآراء فيه» وتحتاج إلى استخدام موارد لغوية كمعاجم 
القطبية» وقوائم أدوات ue]‏ « أو كلمات تفيد التقوية Intensification‏ أو التضعيف 
68 مع eu‏ بقواعد اللغة وآنواع العلاقات v3‏ تربط المكونات المختلفة 
للجمل بهدف الكشف عن نطاق النفي إذا وجدء أو ربط التعبيرات القطبية بمصادرها 
والجوانب التي تستهدفها في النص. الفكرة العامة هذه الطرق هي أا تفحص كل 
كلمة في النص وتبحث عنها في المعاجم القطبية» وتصنف كل كلمة إلى موجبة أو سالبة 
أو متعادلة» ويتم تعيين قيمة رقمية لكل من هذه القطبيات فكل كلمة موجبة مثلاً 
يتم التعبير عنها بقيمة عددية موجبة ١+‏ أو YH‏ بحسب شدة القطبية [ في حال توفر 
معلومات عن شدة القطبية في المعجم المستخدم- وبا ثل فإن الكلمة السالبة يقابلها 
رقم سالب ١-‏ أو c Y-‏ والكلمات المتعادلة يقابلها الرقم [oY] ٠‏ [55] [571[]55]. 
تراعي هذه الطرق أيضاً وجود ما يؤثر على اتجاه القطبية أو قوتها من خلال مجموعة من 
Ael ya‏ اما كل يذو xl gu e‏ هل lol‏ ی وو aad‏ اة 
Us a‏ ساف Re‏ مقاسة بالكل ات a‏ آداة ال ت e‏ قطية الكلمة 
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والقيمة العددية المرتبطة بهاء وكذلك إذا تبعت كلمة قطبية إحدى الكلمات التى تؤثر في 
شدة قطبيتها يتم زيادة أو تقليل القيمة العددية لقطبيتها وفقاً لذلك ] 1ه ] [59]. 
بلي ذلك تجميع هذه القيم على مستوى الجملة ثم على مستوى النص بكامله» وبذلك 
تكون القطبية النهائية للنص هي مجموع قطبية الكلمات المكونة له. 

المشكلة في هذه الطرق هو اعتادها على توفر معاجم قطبية ثرية» وتستلزم معرفة 
قوية باللغة المستعملة في النصوص بشكل cele‏ وبطبيعة الموضوع الذي يجري تحليل 
الآراء فيه بشكل خاص» وتحتاج إلى صياغة قواعد خاصة لكل من المواضيع المختلفة» 
وهو ما يتطلب جهداً كبيراً من الباحثين» فمثلاً القواعد التي تصلح لتحليل التعليقات 
على المنتجات الإلكترونية لا تصلح بالضرورة لتحليل الآراء في النقاشات التي تتناول 
مواضيع فكرية. هذا بالإضافة إلى أن هذه الطرق هي الأقل من حيث الدقة في نتائجهاء 
ولذلك انصرف eleal‏ الباحثين عنها إلى الطرق المعتمدة على تعلم الآلة. 

Machine Learning الطرق المعتمدة على تقنيات تعلم الآلة التقليدية‎ - Y 

في هذا النوع من المقاربات يتم الاعتماد على تقنيات تعلم الآلة للتعرف على BEYI‏ 
اللغوية المرتبطة بالتعبير عن المشاعر والآراء في النصوصء ويلزم فيها توفر نصوص 
معروفة القطبية» ويلزم قيام الباحث بتعريف عدد من الخصائص اللغوية Features‏ 
التي يظن bel‏ مرتبطة بقطبية النص» وبدلا من صياغة قواعد ومعادلات يدوية لتصنيف 
قطبية النص » تقوم خوارزميات تعلم الآلة باكتشاف العلاقات بين الخصائص التي 
يعرفها الباحث وقطبية النص وبناء نموذج قادر على تخمين قطبية أي نص جديد 
بمعلومية خصائصه. 

ومن أمثلة الخصائص Features‏ التي حاول الباحثون استخدامها في هذا النوع من 
تحليل الآراء ما يلٍ: 

* خصائص لفظية :Lexical Features‏ ومن أمثلتها المفردات المتتالية n-grams‏ 
سواءً من خلال رصد وجود أو غياب كل من هذه المفردات Binary Rep-‏ 
resentation‏ |9 من خلال تعداد تكرار كل منها في النص الواحد Term‏ 
(Frequency (TF‏ وتكرار ظهورها في النصوص المختلفة Document Fre-‏ 
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(quency (DF‏ في هذه 3JU-1‏ يكون كل n-gram‏ في النص عبارة عن خاصية 
„Feature‏ هذا يعنى أن عدد هذه الخصائص قد يكون كبيراً cla‏ وهنا تكون 
العربية لأنها تقلل من عدد هذه الخصائص وتجعل خوارزمية التعلم الآلي أقدر 
على التعلم. 
بعض هذه الخصائص ممكن أن تعتمد على المعاجم» مثل تحديد عدد الكلمات القطبية 
في الجملة» وتحديد إذا ما كان النص يحتوي على أدوات نفي أو تقوية أو تضعيف. إلخ. 
cn gos are aug‏ قرا عد كاده ned OE avs‏ ورج يكو desi‏ 
هذه الخصائص لخوارزمية تعلم الآلة» ويترك للخوارزمية أن تتعلم كيفية الاستفادة من 
هذه المعلومات لتصنيف القطبية. 

* خصائص بنائية :Structural Features‏ وهى خصائص متعلقة بتركيب الجملة 
والكلمات المكونة (Ub‏ ومن أمثلتها طول النصء المسافة بين الكلات القطبية 
وأداة النفي إن وجدت» موضع ظهور الكلمات القطبية في النص أو الجملة» 
إلخ. 

* خصائص نحوية Syntactic Features‏ وهى خصائص تتعلق بالبناء النحوي 
للجملة والعلاقات الإعرابية التي تربط كلماتهاء ومن أمثلتها تصنيف أقسام 
الكلمات cCPart-of- Speech‏ وتفيد هذه الخصائص في جعل عملية تحليل 
الرأي أكثر إدراكاً للسياق فمثلاً بدلاً من استخدام الكلمة فقط مجردة من 
سياقهاء يصبح بواسطة هذه الخاصية معروفاً إذا ما كانت الكلمة استعملت 
كصفة أو اسم أو فعل» وإذا ما كانت للمفرد أو المثنى أو الجمع» أو إذا كانت 
للمذكر أو المؤنث» إلخ. 

ومن أمثلة هذه الخصائص أيضاً العلاقات النحوية التى تربط الكلمات مثل ارتباط 

المبتدأ بالخبر في الجملة الاسمية» والفعل بالفاعل في الجملة الفعلية» إلخ. ومثل هذا 
الخصائص تكون ضرورية أكثر في حالة الحاجة إلى ربط كل كلمة قطبية بمصدرها 
وبالجانب الذي تستهدفه. فبدون أن تكون هذه العلاقات النحوية متاحة لخوارزميات 
تعلم الآلة يكون من الصعب تعلم هذه العلاقات بشكل مباشر من النص. 
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جربت العديد من خوارزميات تعلم الآلة لتعلم تصنيف قطبية الآراء» على 
رأسها خوارزمية التصنيف المعتمدة على مجموعة النقاط الداعمة Support Vector‏ 
es Machines‏ ربا أكثر الخوارزميات استخداماً في هذا المجال وذلك لكفاءتها في 
التعامل مع أعتداة ضخمة من الخصائص» وخوارزمية بييز البدهية «Naive Bayes‏ 
وخوارزمية التصنيف بحسب أقرب النقاط المجاورة K-NN‏ والخوارزميات التى 
تستخدم مجموعات أشجار القرار l .Tree Ensembles‏ 


Deep Learning الطرق المعتمدة على التعلم العميق‎ - Y" 

شهدت السنوات العشر الماضية صعودا كبيرا لتقنيات التعلم العميق في العديد من 
المجالات وحققت نجاحات باهرة في تحليل الصور «Image Processing‏ وإدراك 
الكلام المنطوق «Speech Recognition‏ ومعالحة اللغات Natural Language‏ 
.Processing‏ الميزة الأساسية في هذه الطرق آنا تستطيع التعلم بشكل مباشر من 
البيانات في صورتها الخام وتعفي الباحث من الحاجة إلى تعريف خصائص محددة بشكل 
يدوي. الصورة الخام للبينات low-level features‏ تكون عبارة عن الكليات 
نفسها بتسلسلها في النص أو حتى cole yas‏ الحروف المتوالية .Character n- grams‏ 

تستخدم هذه الطرق أشكالا مختلفة من خوارزميات الشبكات العصبية 
Neural Networks‏ « وينصب تركيز الباحثين فيها على بنية نموذج الشبكة Model‏ 
cArchitecture‏ من البنى المستخدمة بشكل متكرر في مجال معالجة اللغات الشبكات 
العصبية المتكررة Recurrent Neural Networks‏ ومن أمثلتها شبكات الذاكرة 
قصيرة المدى الطويخM (Long Short Term Memory (LST‏ والشبكات العصبية 
(Gated Recurrent Neural Networks (GRNNà „Jl‏ ومن البنى المشهورة 
Lal‏ الشبكات العصبية الالتفافية à (Convolutional Neural Networks (CNN‏ 
شكلها المطبق على النصوص فضلاً عن الصور» وأخيراً البنى التي شهدت صعودا كبيرا 
مؤخرا ce‏ المنتبهة لنفسها Self-Attention Models‏ ومن أمثلتها خوارزميات 
Transformer‏ و BERT‏ من شركة جوجل. 

ونظراً ON‏ هذه الخوارزميات تحاول أن تتعلم من البيانات الخام بشكل مباشر فإنها 
تحتاج إلى كميات كبيرة جداً من البينات حتى تتمكن من اكتشاف العلاقات الاقترانية 
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بين الكلمات (أو الحروف في بعض الأحيان) وقطبية الآراء. المثير في هذه التقنيات أنها 
لا تعتمد اعتماداً كاملاً على التعلم من نصوص معروفة القطبية» فبعض مراحل التعلم 
y‏ تحتاج سوى نصوص بدون ضرورة لمعرفة تصنيفها «Unsupervised Learning‏ 
وتبدف هذه المرحلة إلى تعلم EXE‏ | معنوي للكلمات Word Embedding‏ وهو عبارة 
عن مجموعة من الأرقام التي يتم تعلمها بشكل آلي لكل كلمة بحيث تصبح هذه الأرقام 
بمثابة تمثيل رقمي للمعنى الذي تحمله الكلمة و الذي يتم استنباطه من خلال رصد 
مئات آلاف السياقات التي وردت فيها الكلمة في ملايين النصوص التي يتم تدريب 
الخوارزمية عليهاء ثم يتم استخدام هذه الأرقام للنيابة عن الكلمات في المراحل المتقدمة 
من تعليم الخوارزمية والتي يلزم فيها استخدام نصوص معروفة القطبية سواءَ بشكل 
كامل «Supervised Learning‏ أو بشكل جزئي أو ضعيف Weak Supervision‏ كأن 
يفترض أن احتواء النص على وجه تعبيري ضاحك دليل على أن النص يحمل قطبية 
مو جبة. 

وما يميز هذه التقنيات هو سهولة مواءمتها لتصبح قادرة على تحليل الآراء في 
مجالات مختلفة من خلال تقنيات cTransfer Learning‏ بحيث إذا تم تعليم الخوارزمية 
على تحليل الآراء في جال معين مثل مراجعات الأجهزة الإلكترونية» فإنه لا يلزم إعادة 
تدريب الخوارزمية من الصفر حتى تتمكن من تحليل الآراء الفكرية في الشبكات 
الاجتماعية مثلاً. وذلك OY‏ هذه التقنيات تسمح بالإتيان بالنموذج التي تم تعلمه 
للمجال الأول ثم مواصلة تدريبه على مدونات نصية من المجال الجديد في عملية تسمى 
العياناً «مواءمة المجال») Domain Adaptation‏ أو «المعايرة الدقيقة») .Fine- Tuning‏ 
ومن ميزاتها dm‏ سهولة إجراء التعلم المتزامن للمهام المختلفة Multi-task learning‏ 
وهو ما يجعل من الممكن تدريب الخوارزمية لتصبح قادرة على إجراء أكثر من مهمة 
بشكل متزامن مثل تدريب النموذج على تحليل قطبية مراجعات المنتجات» ومراجعات 
المطاعم» والآراء الفكرية في آن واحد! 

وقد أصبحت طرق التعلم العميق الأكثر استخداماً بين الباحثين المهتمين بتحليل 
الآراء في اللغات المختلفة» والتي لاقت Gal‏ خاصا بين الباحثين في اللغة العربية 
وذلك لأن التعقيد الصرفي والنحوي للغة العربية يجعل se VI‏ على الخصائص المعرّفة 
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يدوياً صعبا جداً وغير عملي. هذا التعقيد من شدته جعل تقنيات التعلم العميق في 
تحليل الآراء العربية أقل نجاحا منها في اللغة الإنجليزية e‏ وقد وجد الباحثون أن 
إجراء التحليل الصرفي وتقطيع الكلام بناءً على نتيجة هذا التحليل (بل وإجراء عمليات 
معالجة مثل التجذير والتجذيع) تعتبر خطوات مهمة لتعظيم النجاح الذي تحققه هذه 


التقنيات في تحليل الآراء العربية. 
مصادر وأدوات 


نستعرض في هذا القسم مجموعة من الموارد التي نظن Vel‏ مفيدة في Jie‏ تحليل 
الآراء» ويمكن أن يستفيد منها من يحاول إجراء أبحاث في المجال» أو يحاول أن يبنى 
أنظمة لتحليل الآراء. سيقتصر العرض هنا على الأدوات الخاصة باللغة العربية. 

.١‏ أدوات المعالجة المسبقة للنص: 

نستعرض هنا بعض الأدوات التي يمكن استخدامها لتقطيع النص وإجراء عمليات 
التجذير والتجذيع والتحليل الصرفيء وغيرها. 

ومن الأدوات المتاحة لمعالجة النص العربي [N] AMIRA‏ وتضم أدوات لتنفيذ 
العديد من المهام الأساسية في معالحة اللغة العربية» كالتقطيع Tokenization‏ وتصنيف 
أقسام الكلام Part of Speech Tagging‏ والإعراب السطحي .Shallow Parsing‏ 


ومن الأدوات MADA Cad‏ [11] وتحتوي الباقة على محلل الصرفي وأداة لتقطيع 
النص وأداة لتسوية النص «Orthographic Normalization‏ وأداة لتحويل النصوص 
العربية إلى ترميز ASCH‏ وفق طريقة .Buckwalter‏ 

ومن أدوات المتاحة لتحليل البناء النحوي للجملة [1Y] The Stanford Parser‏ 
وأيضاً [Y] 5 Parser‏ وكلاهما يدعمان عدة لغات منها اللغة العربية» ويمكن 
استخدام نفس Asa) gal Y‏ أقسام الكلام كذلك .Part-of-speech tagging‏ 
ومن الأدوات التي توفر إمكانية الإعراب وإيجاد العلاقات الاعتادية للباحثين 
والمطورين TurboParser‏ ]&3[. 
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نستعرض هنا بعض المعاجم القطبية العربية» ونعرض Dee‏ من هذه المعاجم. النوع 
الأول هو المعاجم المعدة بشكل يدويء والنوع الآخر المعاجم المبنية بشكل آلي أو شبه آلي. 

٠‏ المعاجم المعدة يدوياً: 

من أمثلتها معجم ArabSenti‏ ]£1[ ويضم ۳,۹۸۲ صفة تم استخراجها من 
٠١‏ مقال من بين المقالات الموجودة في 1o] Arabic Tree Bank‏ ]» وتم تصنيف هذه 
الصفات إلى إيجابية وسلبية ومتعادلة على يد ثلاثة من متحدثي اللغة العربية. 

Er‏ الأمثلة أيضاً معجم DUM] SIFAT‏ وتم بناؤه بطريقة iplis‏ ويحتوي على 
Y,YYo‏ صفة. 

ومن المعاجم القطبية المتاحة [EY] NieULexcUJS‏ ويتميز باحتوائه على 
تعبيرات متعددة الكلمات بالإضافة إلى الكلمات المفردة» CS‏ أنه يضمن كلمات وتعبيرات 
عامية باللهجة المصرية بالإضافة إلى الفصحى» بالمجمل يحتوي المعجم على 0Y‏ ,0 
عبارة أو مفردة قطبية. وتتوفر نسخة مطورة من هذا المعجم WeightedNileULex‏ 
تضيف وزنا يمثل قوة قطبيته ]££[ 

٠‏ المعاجم المعدة بشكل آلي أو شبه آلي: 

ومنها DW] ArSenL‏ ويحتوي على Y‏ ألف جذر عربي مع أوزان يحدد قوة قطبية 
كل منها. 5 [VA] ArSEL‏ وفيه تم تصنيف الكلمات في المعجم إلى ۸ أنواع من المشاعر 


مع إعطاء وزن لكل منها. 
ومن هذه المعاجم أيضاً 51:54 [T4]‏ الذي يضم قرابة Yo‏ ألف جذر عربي مع 
تصنيف قطبية وشدة قطبية كل منها. 


۳. مكتبات بر جية: 

من أنظمة تحليل الآراء المتاحة للغة العربية نظام [V+ ISAMAR‏ وهو نظام لتصنيف 
موضوعية الكلام Subjectivity Analysis‏ وكذلك لتصنيف القطبية Sentiment‏ 
ag „Analysis‏ غير متوفر للتحميل عبر الإنترنت ولكن يمكن الحصول عليه بطلبه 
من أصحاب البحث. 
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ومن الأنظمة كذلك نظام تحليل المشاعر العربية Arabic Sentiment Analyzer‏ 


. مدونات لغوية Corpora‏ 

نستعرض في هذا القسم بعض المدونات اللغوية التي يمكن استخدامها في أبحاث 
تحليل الآراء العربية» هذه المجموعات تحتوي على نصوص يتم تصنيف قطبيتها بشكل 
يدوي وفق إرشادات يضعها الباحثون» وتستخدم في طرق تحليل الآراء التي تعتمد على 
تقنيات تعلم الآلة» كا تستعمل لتقييم قدرة الخوارزميات المختلفة على تصنيف الآراء 

المدونة اللغوية المستخدمة في [YA]‏ تضم ٠,۸٠١‏ جملة تم تصنيف موضوعيتها 
وقطبيتها بشكل يدوي» ويمكن استخدام هذه المجموعة للدراسات المهتمة بتحليل 
الموضوعية و/ أو تصنيف القطبية. 

المجموعة النصية [VY] AWATIF‏ هى امتداد للمجموعة السابقة وفيها أضاف 
يدوياً. 

من المدونات اللغوية أيضاً مجموعة [VY] LABR‏ وهي تضم أكثر 77 ألف من 
تقييمات الكتب مأخوذة من أحد مواقع الكتب» وفيها تعليقات على الكتب كتبها أكثر 
من ١7‏ آلف مستخدم» وکل تعليق مقترن بتقييم رقمي من ١‏ إلى 0. مجموعة BRAD‏ 
SIVE‏ مجموعة نصية أخرى تحتوي على أكثر من نصف مليون من تقييات الكتب» 
وكل التعليقات أيضا مقترنة بتقييم رقمي من ١‏ إلى 0 يدخله صاحب التعليق. 

NE UM‏ ل ل 
باللغة العربية يقترب عددها من نصف مليون تقييم مأخوذة من موقع booking. com‏ 
الشهيرء وكا في المجموعات السابقة كل تقييم نصي يأتي مصحوباً بتقييم عددي من Y‏ 
إلى ٠١‏ يدخله صاحب التعليق. 
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الخلاصة 

معالجة الآراء واحدة من أكثر موضوعات لسانيات الحاسب JYI‏ نشاطاً سواءً 
في الوسط البحثي أو الوسط العمليء وتطبيقاتها كثيرة ومتشعبة وتلامس جوانب 
عديدة من حياة الناس. تشتمل معالجة الآراء على مجموعة من المهام الفرعية الأساسية 
كالتعرف على موضوعية الكلام وقطبيته ومصدره والجهة المستهدفة به» ومهام متقدمة 
تحتاجها بعض التطبيقات كتلخيص الآراء وتتبع تطورها وكشف انقسام الناس حوها 
إلى مجموعات. يمكن تصنيف المقاربات التي لحأ إليها الباحثون في هذا المجال إلى ثلاثة 
cl i zeit‏ متمد عل العام القطبية» ومقاريات dad‏ عل cease‏ تد 
الآلة التقليدية» ومقاربات تعتمد على تقنية التعلم العميق الحديثة. تحليل الآراء العربية 
تواجهه تحديات خاصة نظرا للثراء الصرفي للغة العربية وتعدد لمجاتهاء وغياب التشكيل 
من معظم النصوص المكتوبة بها. ولهذا السبب OB‏ للمعالجة المسبقة للنص العربي قبل 
إجراء عمليات تحليل الآراء عليه ها أهمية كبيرة في زيادة دقة تحليل الآراء. ومن هذه 
المعالجات المفيدة التحليل الصرفي» والتجذيع» والتجذير» والإعراب» وتصنيف أقسام 
الكلام وغير ذلك. الجهود البحثية في تحليل الآراء العربية أسفرت عن مجموعة غير 
قليلة من الأبحاث المنشورة والمدونات النصية والمكتبات البرمجية المفيدة في إجراء 
البحوث وبناء التطبيقات العملية U‏ 
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التعلم العميق وتطبيقاته المرتبطة باللغة العربية 


د. أحمد الحايك 27 


ملخص 

لقد استطاعت تقنية التعلم العميق (Deep learning)‏ أن تحقق نتائج رائعة في 
العديد من مجالات الذكاء الاصطناعي وتعلم الآلة خلال الأعوام الأخيرة. يرجع 
هذا النجاح لعدة أسباب لعل من أهمها توفر وحدات معالجة الرسوميات (GPU)‏ 
ذات القدرة الحسابية XBUI‏ وتوفر مجموعات بيانات تدريبية كبيرة جدا تصل إلى 
ملايين النصوص أو الصور. ويعتبر كل من مجال تحليل النصوص الطبيعية Natural)‏ 
(Language Processing‏ وال x‏ الكلام المنطوق (Speech Recognition)‏ 
Jue‏ التعرف الضوثى على الحروف Optical Character Recognition)‏ أو (OCR‏ 
من أبرز المجالات التي استطاعت تقنية التعلم العميق التفوق فيها على جميع التقنيات 
التقليدية. هذه المجالات لما أهمية بالغة نظرا لكثرة تطبيقاتها الحالية والمتوقعة» والتى 
تشمل -على سبيل المثال- التخاطب مع الإنسان الآلي باللغة الطبيعية» والترجمة ASI‏ 
وعلى الرغم من كثرة الإنجازات التي استفادت مؤخرا من تقنية التعلم العميق لخدمة 
اللغة الإنجليزية وغيرهاء إلا أن اللغة العربية لم تستفد بعد من هذه التقنية بشكل كبير. 

نقدم في هذا البحث تعريفا لتقنية التعلم العميق وتاريخها وأسباب نجاحها الذي م 
يكن يتوقعه معظم الخبراء في مجال الذكاء الاصطناعي. ثم نسلط الضوء بعد ذلك على 
بعض الأبحاث التي سخرت تقنية التعلم العميق لخدمة اللغة العربية من خلال تطوير 
خوارزميات عالية الكفاءة في المجالات المذكورة وغيرهاء ونأمل أن يكون هذا البحث 
نقطة انطلاق للاستفادة ا مثلى من تقنية التعلم العميق لخدمة لغة القرآن العظيم. 


-١‏ أستاذ مساعد في كلية علوم الحاسب JYI‏ بجامعة الأمير مقرن بن عبدالعزيز. حصل د. الحايك على درجة الماجستير 
من جامعة سارلاند عن خوارزميته لتتميم صور الخلايا ثلاثية الأبعاد» ثم حصل على درجة الدكتوراه في تتبع حركة 
مع جامعة سارلاند. عمل باحثا في معهد ماكس بلانك للمعلوماتية في ألمانيا وباحثا ومدرسا في مركز الأبحاث 
الألماني للذكاء الاصطناعي في جامعة كايزرسلاوترن» وله العديد من البحوث المنشورة باسمه. 


iy 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
n—UuUÓ L|‏ 


١‏ — مقدمة 

Bengio Yoshua ; © Hinton. Geoffrey ; © Yann LeCun كل من‎ jl 
م7١١4 مؤخرا بجائزة تورنج (تشبه جائزة نوبل ولكنها تمنح لعلاء الكمبيوتر) لعام‎ 
بجدارة عن تطويرهم لتقنية التعلم العميق (وتسمى ايضاً الشبكات العصبية‎ [V] 
واقعا نعيشه اليوم. ولأن‎ = JUL بعض الأفكار -التي كان يتصور الكثيرون أنها بعيدة‎ 
تطبيقات تقنية التعلم العميق في حياتنا اليومية كثيرة ونتائجها منقطعة النظير» يجدر‎ 
تقديمها للقارئ العربي.‎ 

حتى C3,‏ قریب» كانت الشبكات العصبية الاصطناعية مستبعدة من قبل مجتمع 
أبحاث الذكاء الاصطناعي. فعلى الرغم من وجودها منذ الأيام الأولى للذكاء 
الاصطناعيء إلا أا لم تنتج سوى القليل جداً من النتائج المفيدة عملياً. ولعل أحد 
أسباب هذا الضعف في الأداء هو أن هذه الشبكات مكلفة جداً حسابياً (أي إنها تحتاج 
إلى إجراء مليارات العمليات الحسابية). بل إن الشبكات العصبية الأبسط منها كانت 
رب تحتاج إلى شهور eU‏ عملياتها الحسابية على بعض الحاسبات الآلية الأقدم. بالرغم 
من هذاء ظلت ie pat‏ من العلماء تبحث في هذه التقنية (مثل Geoffrey Hinton‏ و 
Yann LeCun‏ اللذان US‏ يرأسان مجموعتين بحثيتين لتطوير هذه التقنية EY]‏ 

قامت مجموعة Geoffrey Hinton‏ بمزامنة هذه الشبكات T‏ تقسيمها إلى عدد 
من المهام التي تنفذ في نفس الوقت على حاسبات آلية متعددة ) لإثبات كفاءتها. وفي 
عام ۱۹۹۸م» طورت مجموعة Yann LeCun‏ البحثية مفهوم الشبكات العصبية 
الالتفافية (Convolutional Neural Network)‏ والتي مكنت من تقليل التكلفة 
الحسابية للشبكات العصبية وبالتالي زيادة عمقها (راجع الفصل QUY‏ 

وفي عام e Y e Y‏ استطاعت تقنية التعلم العميق أن تفرض نفسها بنتائجها الجيدة. 
فعلى سبيل JE‏ تمكنت شركة DeepMind‏ التابعة لشركة جوجل من استخدام تقنية 


-Y‏ أستاذ فخري بجامعة تورنتو ونائب رئيس شركة قوقل. 
Y‏ - أستاذ بجامعة مونتريال ومدير علمى لعدد من معاهد الذكاء الاصطناعى. 
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التعلم العميق في تصميم برنامج AlphaGo‏ الذي انتهى به JU‏ في عام eY ٠ Yo‏ للتفوق 
على اللاعب الكوري المحترف 56-001 Lee‏ في لعبة CS [Y] Go‏ تفوقت تقنية التعلم 
العميق مؤخرا في محال تشخيص بعض الأمراض JUS‏ رطان رجال التعرف على الصور 
ImageNet challenge)‏ وغيرها من المجالات. 

إن فهم فكرة التعلم العميق وأقسامه وتاريخه بشكل تفصيلي يساعد في تسخير هذه 
التقنية الفعالة. وحتى نفهم المقصود ببذه التقنية» فلابد من تعريف بعض المصطلحات 
الأساسية مثل: الذكاء الاصطناعيء وتعلّم الآلة» الشبكات العصبية الاصطناعية؛ 
لذلك سنفرد الفصل الثاني من الباب للتعرف على معاني هذه المصطلحات قبل أن 
نسلط الضوء على التعلم العميق وأنواع التقنيات التي استحدثت مؤخرا فيه» كا 
Uil‏ سنحاول إيضاح أهم أسباب نجاح تقنية التعلم العميق. نعرض بعد ذلك كوكبة 
من الأبحاث الحديثة التى سخرت هذه التقنية لخدمة اللغة العربية في HE Ne‏ 
النصوص الطبيعية «(Natural language iE)‏ والتعرف على الكلام المنطوق 
«Speech recognition)‏ والتعرف الضوئى على النخصوص Optical Character)‏ 
20 وهى جهود مشجعة Je‏ أن تتضاعف حتى نصل إلى تطبيقات 
ناضجة تخدم اللغة AT‏ والقرآن الكريم. 


Y‏ تعريف بعض المصطلحات المرتبطة بالتعلم العميق 

في هذا الفصل نقدم تعريفات ختصرة لتقنية التعلم العميق وما يرتبط بها من 
علوم وما يتفرع عنها من التقنيات التي نجحت في تحقيق نتائج قوية خلال الأعوام 
الأخيرة. ولا شك أن تفاصيل وجوانب التعلم العميق لا يمكن تغطيتها في هذا البحث 
القصيرء لذلك فإننا نعرض في هذا الفصل أفكاره الأساسية دون الخوض في التفاصيل» 
خاصة وقد أغنت عن الخوض فيها DUSK‏ برمجية مثل [o] Caffe [£] PyTorch‏ 
TensorFlow s‏ ]1[ التي جعلت بناء خوارزميات التعلم العميق أمرا سهلا m‏ 
ووفرت شروحا وأمثلة تيسر ذلك؛ مثل الشروح على عملية التعرف على الأرقام 
المكتوبة باليد في مجموعة بيانات [V] Mnist‏ 
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رسم توضيحي CV)‏ العلاقة بين التعلم العميق والمصطلحات المرتبط به. 

ولعل أسهل طريقة لفهم العلاقة بين الذكاء APA‏ الآلة والشبكات 
imal‏ الأصطناعية هو E‏ كمجموعات متداخلة كا هو مبين في الرسم 
التوضيحي .١‏ فالذكاءٌ الاصطناعي هو الدائرة الأكبر؛ إذ خوارزمية تعلم الآلة تعتبر 
خوارزمية ذكاء اصطناعي والعكس غير صحيح. كما أن تعلم الآلة -بدوره- يشتمل 
على العديد من الخوارزميات مثل شعاع الدعم (Support vector machine) JM‏ 
والشبكات العصبية الاصطناعية وغيرهما. لذلك فإن الشبكات العصبية الاصطناعية 
تعتبر مجموعة جزئية من تعلم الآلة. Gl‏ التعلّم العميق فهو أحد تقنيات الشبكات 
العصبية الاصطناعية. 

\ , الذكاء الاصطناعى 

يعرف الذكاء الاصطناعي على أنه علم ee‏ بتصميم خوارزميات تستطيع أداء مهام 
محددة بنفس كفاءة البشر أو أفضل. بناء على هذا التعريف فإن أي خوارزمية S‏ 
سلوكا يختص به الإنسان تدخل تحت مظلة الذكاء الاصطناعي. فعلى سبيل «Jet‏ 
الإنسان يستطيع فهم الكلام» فأي خوارزمية تستطيع عمل هذه المهمة تعتبر خوارزمية 
ذكاء اصطناعي. وكذلك خوارزميات التعرف على الوجوه في الصور التى تستعمل في 
برامج Facebook‏ تحمل بعص جوانب الذكاء البشري l IYA]‏ 


EA 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OOO‏ 


تم اعتماد مصطلح «الذكاء الاصطناعي» عام 155١م‏ في مؤتمرات دارتموث [1]. d‏ 
ذلك الوقت كان حلم رواد الذكاء الاصطناعي بناءَ آلاتِ معقدة تمتلك حواسا ويمكنها 
التفكير مث البشر [YA]‏ وكا أن للبشر قدرة على التعلم ما يسمعونه ويدركونه 
يشاهدونه؛ كان تعلم الآلة أحد مجالات الذكاء الاصطناعي التي رمي إلى محاكاة الذكاء 
البشري عبرهاء ومن هنا ظهر جال «تعلم الآلة». 


۲ تعلم الآلة 

تعلم الآلة (Machine Learning)‏ يعنى بتطوير خوارزميات قادرة على تحليل 
البيانات والتعلم منها لتحسين أدائها في مهمة محددة» كاتخاذ قرار معيِّنِ أو تصنيف شيءِ 
ما. وبعد بناء برامج تعلم الآلة» فإنها تمر بمرحلة تدريب «UL, Je CTraining)‏ كثيرة 
مصنفة بشريا لتكسب خوارزمية تعلم الآلة القدرة على تعلم تنفيذ نفس المهمة لاحقا 
على بيانات جديدة غير مصنفة. وهناء يبدأ الباحثون باختبار أداء الأنظمة (Testing)‏ 
بعرض بعض المدخلات على الخوارزمية المدربة ومقارنة النتيجة التى تعطيها هذه 
l TE EES‏ 

لتوضيح هذا التعريف دعونا نضرب مثالا لخوارزمية لديها القدرة على تحديد نوع 
الفاكهة التي تظهر في صورة ما. في كل مرحلةء تأخذ هذه الخوارزمية صورة لإحدى 
الفواكه كمدخل. في المرحلة الأولى يتم بناء الخوارزمية بحيث تكون قادرة على استقبال 
صور وإعطاء أوسمة محددة كمخرج. ثم تبدأ مرحلة التدريب (Training)‏ بحيث 
تعطى هذه الخوارزمية عددا كبيرا من صور الفواكه ومع كل صورة تعطى اسم الفاكهة 
التي تظهر في تلك الصورة» فتقوم الخوارزمية بتحليل كل صورة من أجل إيجاد علاقة 
بين الصورة ونوع الفاكهة المرفق معها (كالشكل أو اللون أو الحجم) حتى تتمكن 
الخوارزمية من إيجاد علاقة مطردة بين الصور وأسمائها أو أوسمتها. ثم تبداً مرحلة 
الاختبار (Testing)‏ للخوارزمية بن تعطى بعض الصور الجديدة (أي صور لم تستخدم 
في مرحلة التدريب) لفواكه من نفس الأنواع التي تم تدريب الخوارزمية عليها؛ ومن 
ثم» يتم تقييم الخوارزمية وحساب دقتها بتحديد نسبة التصنيفات الصحيحة في مجموعة 
الصور التي أعدت للاختبار (Testing set)‏ . 
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لقد استطاعت خوارزميات تعلم الالة فتح آفاق واسعة لتطبيقات لم تكن ممكنة 
بغراررسات :الترميز البدوق E REI‏ .ويحقى التطبيقات الطييةة 
والعسكرية» والأمنية» والتجارية» وغيرها .]١١[‏ 

يوجد عدد كبير من خوارزميات تعلم الآلة التي تتبع مناهج مختلفة» مثل: شجرة القرار 
«(Decision tree)‏ وبرجة المنطق الاستقر ائي «(Inductive logic programming)‏ 
وخوارزميات المراكمة (Clustering)‏ و التعلم المعزز «(Reinforcement learning)‏ 
والشبكات البايزية «(Bayesian networks)‏ وشعاع الدعم Support vector) JW‏ 
(machine‏ ويمكن تصنيف هذه الخوارزمیات عموما إلى مجموعتين رئيسيتين: 
8 التعلم تحت الإشراف (Supervised Learning)‏ وفيه يتم تدريب خوارزمية 
تعلم الآلة باستخدام بيانات تم وسمها وتصنيفها مسبقا ى) في مثال الفواكه 
السابق: 
* التعلم دون إشراف cé 43 5 :(Unsupervised Learning)‏ الخوارزمية 
البيانات المتشابهة إلى مجموعات ومن تطبيقاتها اكتشاف وتصنيف الأشخاص 
ذوي الاهتمامات المشتركة في وسائل التواصل الاجتماعي .]٠١[‏ 
ومن بين مناهج تعلم الآلة» ظهرت الشبكات العصبية الاصطناعية لمحاكاة عقل 
الإنسان في بنيته وطريقة ealas‏ إذ إن عقل الإنسان يحوي ٠١-٠١‏ مليار خلية عصبية 
jl)‏ «عصبونات») مرتبط بعض منها ببعض. 

Y, Y‏ الشبكات العصبية الاصطناعية 

الشبكات العصبية الاصطناعية luu (Artificial Neural Network. ANN)‏ 
من منهجيات تعلم الآلة مستوحاةً من الخلايا العصبية. يوضح الرسم التوضيحي Y‏ 
دماغ الإنسان بشكل مبسط. حيث يمكن للخلايا العصبية الاتصال بخلايا عصبية 
مجاورة. 
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الرسم التوضيحي (Y)‏ الشبكة العصبية الاصطناعية متعددة الطبقات. كل دائرة تمثل خلية 
عصبية والأسهم تمثل الوصلات بين هذه الخلايا. 
وكذلك ol‏ الشبكات العصبية الاصطناعية تتكون من Dab‏ و وصلات لنشر 
البيانات» أو ced obl‏ تحسب في مرحلة التدريب ثم يتم تحديدٌ الناتج أو 
التصنيف عبرها أثناء الاستعمال. (أنظر الرسم التوضيحي Y‏ حيث تتصل كل خلية 
بجميع خلايا الطبقة التى تسبقها). 


طبقة الإدخال 


طبقة الإخراج 


output layer 
input layer 


"ramp tomm 


hidden layer 


الرسم التوضيحي (): الشبكة العصبية الاصطناعية متعددة الطبقات. كل دائرة تمثل خلية 
عصبية والأسهم تمثل الروابط بين هذه الخلايا. 
تتركب الشبكة العصبية الاصطناعية -ك| هو موضح في الرسم التوضيحي 7Y‏ من 
مجموعة من الخلايا العصبية المرتبة ضمن طبقات الإدخال (Input Layer)‏ والإخراج 
(Output Layer)‏ وطبقة أو أكثر من الطبقات الخفية (Layers Hidden)‏ 
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وتعتبر الشبكات العصبية بالدخل الأمامى (Feed forward neural network)‏ 
إحدى أشهر الشبكات العصبية الاصطناعية is‏ سميت بهذا الاسم لأنها تعتمد مبداً 
الانتشار الأمامي حيث يكون مخرج كل طبقة هو المدخل للطبقة التي تليها فيكون مخرج 
جميع عصبونات أي طبقة دخلاً لكل عصبون في الطبقة التي تليها. وبزيادة الطبقات 
الخفية وتطوير خوارزمياتهاء ظهر ما يسمى بالتعلم العميق. 


Y‏ التعلم العميق وسر نجاحه 

إن مصطلح التعلم العميق Deep Learning)‏ أو CDL‏ اختصار لمصطلح شبكات 
التعلم العميق ol (Deep neural networks. DNN)‏ شبكات التعلم العميق ما هى 
إلا شبكات عصبية اصطناعية (Neural Networks. NN)‏ ولكنها تحتوى على عدد 
كبير (أكثر من ١5١‏ طبقة في بعض الحالات) من الطبقات الخفية (Hidden Layers)‏ 
IY]‏ 

تؤدي هذه الزيادة في الطبقات الخفية لشبكات التعلم العميق إلى 5 85b‏ تعقيد عملية 
التدريب ويتطلب قدرا أكبر من البيانات لتدريبها. وفي مقابل هذه الصعوبة في التدريب 
فإن الشبكات العصبية العميقة تتميز بالقدرة على تعلم المدخلات بدون الحاجة لتحديد 
ملامح [OR (Features)‏ خلافا لأكثر خوارزميات تعلم الآلة الأخرى. 

تقوم الطبقات الأولى في خوارزميات التعلم العميق تلقائياً بعمليات تنوب عن 
تحديد وتعلم الملامح بدقة عالية. وبالإضافة لذلك فهي من أفضل الخوارزميات التي 
تمكن الآلة من تعلم مستويات مختلفة من ملامح البيانات. 

فمثلا لو فرضنا أن المدخل للشبكة العميقة صورة» فإن الطبقة الأولى قد تركز على 
تحديد أماكن الحواف (Edges)‏ في الصورة في حين تركز الطبقة الثانية على تحديد أماكن 
الزوايا فيهاء وهكذا إلى أن تتمكن بعض الطبقات من تحديد الشكل الموجود في الصورة. 

هذا الأمر جعل تصميم أنظمة التعلم بتقنية التعلم العميق أسهل لأا لا تتطلب 
الخبرة اللازمة لتحديد ملامح المدخلات» وهو ما قد يعد eal‏ مراحل خوارزميات 
تعلم UYI‏ وأكثرها تأثيراً في نتائجها. 
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هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
EE EN‏ ااا 


لذاء فإن أحد أهم أسباب نجاح خوارزميات التعلم العميق أنها لا تعتمد على 
خصائص ثابتة ومحددة مسبقاً ىا هو J‏ في eet‏ خوارزميات تعلم الآلة الأخرى. 
ولكنها تتعلم الخصائص المهمة من البيانات أثناء مرحلة التدريب. غير أن نجاح 
خوارزميات التعلم العميق يقوم بشكل أساسي على توفر قدر كبير جداً من بيانات 
التدريب. 

يرجع نجاح تقنية التعلم العميق لعدة عوامل منها تطور بعض تقنياتها وخوارزمياتها 
الحالية مثل الشبكات العصبية الالتفافية (Convolutional Neural Network)‏ التتى 
ساعدت في تقليل التكلفة الحسابية للشبكات العصبية الاصطناعية كثيرا؛ (S‏ سنوضحه 


Ld 


قريبا. 

كذلك من العوامل التي أسهمت في هذا التطور بشكل كبير توافر وحدات معالحة 
الرسومات (Graphics processing units)‏ ذات القدرات الحسابية ul‏ والتي 
جعلت المعالجة المتوازية أسرعَ وأرخصٌ وأكنرٌ $9 من أي وقتٍ مضى. 

من أسباب نجاح التعلم العميق أيضاً توفر كميات كبيرة من البيانات» فقد توفرت 
مؤخراً كميات هائلة من البيانات وصار بالإمكان جمعها وتخزينها بشكل أسهل 
وأرخص بكثير من السابق. فهذا التطور ال هائل في وحدات التخزين والتدفق PUI‏ 
للبيانات من كل حدب وصوبء. وبكل أنواعها (الصور والنصوص والمعاملات 
والخرائط... إلخ)؛ لعب دوراً كبيراً في نجاح تقنية التعلم العميق حيث أن كفاءة التعلم 
تزداد بشكل مستمر مع زيادة كمية البيانات المستخدمة في مرحلة التدريب. كا يجليه 
الرسم التوضيحي رقم .٤‏ 
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هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
mn————X‏ 


Deep Learning 


التعلم العميق 


Neural Networks 


الشبكات العصبية 


Performance الكفاءة‎ 


Traditional 
Machine Learning 
خوارزميات تعلم‎ 
التقليدية‎ ATI 


حجم البيانات المستخدمة في التدريب Data‏ 


بيانات التدريب [Y]‏ 


٤‏ - أبرز تقنيات التعلم العميق 

ثمة عدة تقنيات للتعلم العميق» تعتمد على نوع الشبكة العصبية التي تنبني منهاء 
وفي هذا الفصل نعرض تقنيات التعلم العميق الحديثة التي حققت نجاحاً كبيراً وانتشاراً 
واسعاً ونعرج على أسباب نجاحها. 

١‏ و٤‏ الشبكات العصبية الالتفافية 

الشبكات العصبية الالتفافية Convolutional Neural Network)‏ أو CNN‏ 
اختصاراً) هي نوع خاص وهام من أنواع الشبكات العصبية العميقة قدمها العالم 
Yann LeCun‏ عام 1994م [Y]‏ يعتبر هذا النوع من الشبكات العصبية حلا للكثير 
من مشاكل الرؤية الحاسوبية (Computer Vision)‏ والتي هي فرع من فروع الذكاء 
الاصطناعي يعنى بتطبيقات معالجة الصور ومقاطع الفيديو وتحليل محتوياتها. 

تقوم الفكرة الأساسية لهذا النوع من الشبكات على استبدال طبقات الاتصال 
الكامل (Fully Connected Layers)‏ التقليدية بالطبقات الالتفافية Convolution)‏ 
(Layers‏ ففي هذا النوع من الشبكات تتأثر كل وحدة في الطبقات الالتفافية بعدد 
محدود من وحدات الطبقة السابقة؛ كما في الرسم التوضيحي 5. 
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هذه الطبعة إهداء من OSA‏ 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OOO‏ 


إن فكرة الطبقات الالتفافية مستوحاة من عملية الطى أو الالتفاف الرياضية 
(Convolution)‏ وهى عميلة رياضية تستعمل في äl d‏ مخرجة من دالتين 
edd s cta‏ هذه الأداة الرياضية E‏ تطيقات dolus‏ الصور. وتقوم 
طبقة الالتفاف بتطبيق عملية الالتفاف الرياضية على عناصر الدخل (عصبونات الطبقة 
السابقة أو المدخلات) لحساب قيمة الوحدة في الطبقة التالية. 


Fully Connected Convolutional Layer 


AT 


الرسم التوضيحي (5): اتصال الطبقة الالتفافية (يمين) والاتصال الكامل (يسار) £1[ 


Y‏ و5 الشبكة العصبية المتكررة 

الشبكات العصبية المتكررة Recurrent Neural Network)‏ أو RNN‏ اختصار 4 
من أنواع الشبكات العصبية الاصطناعية والتي تتميز بأنها colle iias‏ راجعة 
داخلّ الشبكة É‏ يُعطيها مفعول الذاكرة» فعلى العكس من الشبكات العصبية بالدخل 
الأمامى (Feed forward Neural Network)‏ فإن الشبكات العصبية المتكررة تأخذ 
ا ا cie (e pd Gel al‏ 
تعود بالمخرج من الدورة السابقة للخلف بحيث يكون مدخلا للدورة التالية. هذه 
الخاصية تعطي الشبكة القدرة على تذكر نتيجة المرحلة الماضية وبالتالي الاستفادة منها 
في المرحلة التالية. هذه الخاصية مهمة جداً في التطبيقات التي تعتمد على الترابط الزمني 
بين المدخلات. فعلى سبيل المثال فإن معنى المقطع الصوتي في تطبيقات تحليل الكلام 
في أي مرحلة يعتمد بشكل كبير على الكلمات السابقة. في مثل هذه التطبيقات تعتبر 
الشبكات العصبية المتكررة الحل الأمثل. وينبغي التنويه إلى أن Cus‏ الشبكاتِ 
العصبية المتكرّرة مُكلفٌ أكثر من الشبكات العصبونية الالتفافية. الرسم التوضيحي 
ن غخطط الشيكانت العضية التكررة: 
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هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
خخ ييا 


الرسم التوضيحي (5): تخطيط الشبكات العصبية المتكررة وتمثيل بسطها زمنيا [Yo‏ 


Y‏ £ شبكات الذاكرة قصيرة-المدى الطويلة 

أحد أهم عيوب الشبكات العصبية المتكررة أنها لا تستطيع التذكر لمدة طويلة. لحل 
هذه المشكلة تم تطوير شبكات الذاكرة قصيرة-المدى الطويلة Long Short- Term)‏ 
Memory‏ أو LSTM‏ اختصارا) نوع خاص من الشبكات العصبية المتكررة RNN‏ 
مصممة لتخزين نتائج المراحل السابقة لمدد أطول. هذا النوع من الشبكات تمكن من 
تحقيق نتائج أفضل في الكثير من التطبيقات التي تعتمد على ترابط المدخلات لمدة طويلة 
IY‏ 


٤‏ و٤‏ شبكات الخصومة التوليدية 

شبكات الخصو مة التوليدية Generative Adversarial Networks)‏ أو GANSs‏ 
اختصارا) شبكات عصبية عميقة تتألف الواحدة منها من شبكتين متخاصمتين بحيث 
أن الأولى (وتسمى المولدة (generator)‏ تسعى لتوليد بيانات تشبه البيانات الحقيقية 
بشكل كبير» في حين أن الثانية (المميزة ((discriminator)‏ تحاول أن تكتشف إن كانت 
البيانات المولدة حقيقية أم مزورة» وبعد كل دورة تتعلم كل شبكة وتتطور في مهمتها. 
Aiad‏ يمكن للشبكة المولدة أن تأخذ صورة لإنسان مرسومة باليد وأن تولد منها صورة 
معدلة تشبه الأصلية. وعند إدخال الصورة المعدلة للشبكة المميزة» فإن هذه الأخيرة 
تسعى للحكم على الصورة بأنها حقيقية أو مزورة. ومع التدريب تصبح الشبكة المولدة 
قادرة على انتاج صورا تشبه الحقيقية إلى حد كبير؛ أنظر إلى الرسم التوضيحي V‏ 
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هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
^o EE NN‏ 


Training set 1 Discriminator 
E E | 


Random -Fake 
noise 


Generator 0 Image 
DYV] مخطط عمل شبكات الخصومةلصور أرقام مكتوبة بخط اليد‎ (V) الرسم التوضيحي‎ 
لأنها يمكن أن تتعلم محاكاة أي توزيع‎ dua GAN إن إمكانات شبكات‎ 
للبيانات. وهذا يعني أنه يمكن تعليم الشبكات العصبية إنشاء عوالم تشبه بشكل مخيف‎ 
Ian من إعداد‎ [VA] في ورقة‎ GANS عالمنا في أي مجال: الصورء الكلام .تم تقديم‎ 
٠١ ١ 5 وباحثين آخرين في جامعة مونتريال» في عام‎ 000161107 


JI شبكة التشفير‎ ٤, ٥ 

تشبه شبكة التشفير Gutama) JM‏ شبكات الخصومة التوليدية حيث Le]‏ 
کرت من شكين صن الأول هي شبكة التشفير (Encoder)‏ وتقوم بتحويل 
المدخل إلى EXE‏ مضغوط (Compressed Representation)‏ والشبكة الثانية هي 
شبكة فك التشفير (Decoder).‏ وتسعى لإعادة تكوين بيانات الإدخال من خلال تمثيلها 
الخفي فقط. يتم تدريب كل من هاتين الشبكتين في نفس الوقت بحيث أن الأولى تحاول 
انتاج تمثيل مخفي يحوي جميع خصائص المدخل ما يمكن شبكة فك التشفير من استرجاع 
المدخل باستخدام ذلك التمثيل المخفي. بعد انتهاء مرحلة التدريب يفترض أن نصل إلى 
تمثيل مضغوط يقوم بتمثيل المدخل بشكل دقيق؛ انظر الرسم التوضيحي A‏ 
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هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
n—UuUÓ L|‏ 


p. Encoder E Decoder 


Original 


input Reconstructed 


input 
Compressed P 
representation 


الرسم التوضيحي (۸): توضيح طريقة عمل شبكة التشفير .]١9[ SI‏ 
إحدى فوائد هذه الشبكات أنها تعمل على الحد من حجم المدخلات؛ أي أن حجم 
التمثيل المضغوط يكون أقل بكثير من حجم البيانات الأولية. فبدلاً من استخدام 
الصورة ذات ا حجم الكبير يمكن استخدام التمثيل المضغوط الذي يقوم مقام هذه 
الصورة في الكثير من التطبيقات. 


ه-أهم تطبيقات التعلم العميق في خدمة اللغة العربية 
في هذا الفصل» نعرض بعض تطبيقات تقنية التعلم العميق في خدمة اللغة العربية 
لتحفيز الجهود في هذا المجال حتى تتطور التطبيقات وتصل إلى مرحلة تمكن من 
استخدامها في حياتنا اليومية. ورغم أن تطبيقات تقنية التعلم العميق في خدمة اللغة 
العربية مازلت في مرحلة ابتدائية لم تنضج فيها الخوارزميات المتوفرة لدرجة تؤدي إلى 
تطبيقات فعالة ومفيدة للمجتمع واللغةء إلا أنه من الصعوبة بمكان استقصاء جميع 
الجهود التى بذلت في هذا المجال. لذلك فإننا نعرض في هذا الفصل بعض الأبحاث 
المهمة ذات العلاقة با موضوع ومن أراد الاستزادة فننصحه بالرجوع إلى بعض الأبحاث 
الموسعة باللغة الإنجليزية مثل [١؟].‏ 
ومن الجدير بالذكر أن هناك فروق متعددة بين تقنيات تعلم الآلة التقليدية وتقنيات 
التعلم العميق. من هذه الفروق على سيبل المثال: 
* أن تقنية التعلم العميق لا تتطلب خبرة كبيرة في جال تعلم الآلة على عكس 
تقنيات تعلم الآلة التقليدية التي تتطلب خبرة كبيرة حيث إنه يقع على عاتق 
الباحث -في معظم الأحيان- تحويل البيانات الخام إلى ملامح يمكن التقنيات 
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هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
OOO‏ 


التقليدية التعامل معهاء GT‏ تقنيات التعلم العميق فإنها تتعامل مع البيانات 
الخام بشكل مباشر دون الحاجة لتحويلها إلى تمثيل آخر. هذا الأمر أدى إلى 
سهولة استخدام تقنية التعلم العميق. 

* نتائج التعلم العميق في خدمة اللغة العربية وغيرها أثبتت تفوقا على تقنيات 
تعلم الآلة التقليدية. فعلى سبيل المثل في مجال التعرف على الأحرف العربية 
المكتوبة بخط LE‏ استطاعت تقنية التعلم العميق تحقيق نتائج غير مسبوقة. 


Y‏ وه تطبيقات التعلم العميق ني مجال تحليل اللغة العربية الطبيعية 

تحليل اللغات الطبيعية (Natural Language Processing)‏ هو مجال يعنى 
بالتفاعلات بين الحاسب الآلي والإنسان من خلال اللغات الطبيعية التي يستخدمها 
الناس في حياتهم اليومية. في EY‏ اقترح الباحثون نموذجا لغويا language)‏ 
(model‏ على مستوى ال حرف يقوم بتعيين قيمة محتملة لكل سلسلة من الحروف عن 
طريق التوزيع الاحتالي. الجديد في هذا البحث أنه آتى نتائج كانت بالعادة تحتاج لنماذج 
على مستوى الكلات. يطبق البحث الشبكات العصبية الالتفافية CNN‏ على أحرف 
الإدخال قبل إدخاها إلى الشبكات ذات الذاكرة قصيرة-المدى الطويلة LSTM‏ تم 
تطبيق هذه الخوارزمية على لغات من ضمنها اللغة العربية. وهذه الخوارزمية متاحة 
للتنزيل والاستخدام [۲۲]. 


o, Y‏ تطبيقات التعلم العميق في جال التعرف على الكلام العربي المنطوق 

التعرف على الكلام المنطوق (Speech Recognition)‏ هو Jle‏ يعنى بتحويل 
الكلام المنطوق إلى ترميز حاسوبي نصي. في أحد أول الأعمال التي استخدمت تقنية 
التعلم العميق في جال التعرف على الكلام العربي المنطوق LY]‏ استخدم الباحثون 
الشبكة العصبية المتكررة للتعرف على الأرقام العربية المنطوقة. تكونت شبكتهم 
العصبية المقترحة من طبقتين خفيّتين وكان أداؤها جيدًا لبيانات عدة متكلمين. 

البحث [Y E]‏ قدم أفضل حل للتحدي الذي تم اطلاقة عام ۲٠٠۷‏ باسم Multi-»‏ 
«Genre Broadcast‏ والذي تضمن مجال التعرف على المنطوق. استطاع المؤلفون تحقيق 
نتائج متازة بمزج العديد من التقنيات الحديثة وعلى رأسها تقنية التعلم العميق» حيث 
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هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
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استخدم الباحثون الشبكات العصبية المتكررة مع ناذج لغوية وتقنيات أخرى. كا 
التعلم العميق للتعرف على الناذج الصوتية العربية وتحقق تحسين AU‏ بنسبة SNO , V‏ 
[Yo]‏ 

o , Y‏ تطبيقات التعلم العميق في مجال التعرف على ا حروف العربية ا مكتوبة 
يعتبر استخدام تقنية التعلم العميق في JU‏ التعرف الضوئي (JY)‏ على النصوص 
العربية ) Optical Character Recognition‏ أو (OCR‏ من cote. ssi‏ خدمة اللغة 
العربية انتشاراءوإن كان ما زال ثمة Jle‏ للتحسين باستخدام هذه التقنية القوية. في 
الكتابة» تختلف العربية عن اللغات الأخرى بخصائص منها: 

* اتجاه الكتابة في اللغة العربية من اليمين إلى اليسار على عكس اللغات اللاتينية. 

° شكل الحرف العربي يعتمد على اتصاله بها حوله. 

* طبيعة اللغة العربية مختلفة في الاشتقاق والصرف والنحو والتشكيل وغير ذلك. 

؟ بعض الحروف متشابهة لحد كبير حيث تختلف في بعض الأحيان في عدد أو 

مواضع النقاط فقط. 

هذه الخصائص وغيرها ها تأثير كبير على الأساليب التى يجب أخذها في عين الاعتبار 
عند دراسة وتصميم خوارزميات التعرف الآلي على النصوص العربية المكتوبة. لذلك 
فإنه ليس من الممكن (lo‏ تطبيق الخوارزميات المصممة للتعرف على كتابات لاتينية أو 
صينية -دون تعديلها- على نص عربي. 

وبالرغم أن هذا المجال تم بحثه منذ سنوات عديدة من خلال تطبيق تقنيات تعلم 
الآلة التقليدية إلا أنه م يبحث بشكل كاف بتقنيات التعلم العميق خصوصاً الجديد من 
هذه التقنيات. علاوة على ذلك» فإن بعض المشكلات المتعلقة بمجال التعرف على 
النصوص العربية لم يتم معالجتها باستخدام تقنية التعلم العميق حتى الآن من هذه 
المجالات على سبيل المثال التعرف على كاتب النص ١ 3] (Writer Identification)‏ ]. 

تقدم [۲۷] نظرة عامة حول جال التعرف الضوئي على الحرف العربية المكتوبة بخط 
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اليد. كا آنا تلخص التحديات التقنية الرئيسية المتعلقة بخصائص اللغة العربية. يحاول 
هذا EN REOR‏ انخقضاء الخرث المتعلقة محال التعرق الوق عل الحروف 
العربية المكتوبة باليد والتى نشرت في عام ١٠٠۲م‏ وما قبله. l‏ 

في عام ۲۰۱۷ قدم الباحث شوقي بوفنار وزملاؤه Se [YA]‏ استخدم فيه الشبكة 
العصبية الالتفافية العميقة للتعرف على صور الأحرف العربية المكتوبة بخط اليد. 
أظهرت نتائج البحث دقة تصل إلى [Y4] 74V , Y Y‏ 


وعرض البحث [EY]‏ نتائج ممتازة في التعرف على حروف واحدة من مجموعات 
البيانات المهمة والمعروف باسم CY Y] KHATT)‏ التي تحتوى على bloi‏ متنوعة 
من النص المكتوب بخط اليد» وحقق أداءً متميزا من خلال تطبيق شبكات الذاكرة 
قصيرة-المدى الطويلة (LSTM)‏ متعددة الاتجاهات. لقد تمكن باستعمال تقنية التعلم 
العميق والمعالجة المسبقة من تحسين النتائج من ANO ,AQELEN ١١‏ 
كما قام الباحث أحمد الصاوي وزملاؤه [YY]‏ ببناء شبكة عصبية التفافية وتطبيقها 
للتعرف على الحروف العربية المكتوبة بخط اليد. استخدمت صور وبيانات ١58٠٠‏ 
حرف في تدريب واختبار الشبكة لتتمكن من تحيقيق دقة تصل إلى 4 , 5 9/. 
5- الخاتمة 

عرض هذا البحث مقدمة مبسطة للتعريف بتقنية التعلم العميق وأهم ما يرتبط 
بها من العلوم والمصطلحات» وعرض باختصار عددا من تقنيات التعلم العميق التي 
حققت شهرة واسعة ونتائج مبهرة. كا سعى للحث عبر أمثلة تطبيقية ناجحة للتقنية 
على استخدمها في خدمة اللغة العربية. ىا يرجى لهذا البحث أن يكون نقطة انطلاق 
للتأليف - بالعربية- في مجال التعلم العميق هذا المجال الجدير بالعديد من المؤلفات. 

أظهرت تطبيقات التعلم العميق في معالجة اللغة العربية طبيعيا والتعرف على الكلام 
المنطوق والمكتوب فاعلية رغم من أنها لم تستغل -بعد- بالشكل المرضي. نوصي في 
ختام هذا البحث بالاهتام ede‏ التقنية التي نتوقع لما نجاحا في الكثير من المجالات 
وعلى رأسها خدمة اللغات الطبيعية. 
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شاعر بلا مشاعر: تجرية 2 الشعر العربي الآلي 
باستخدام التعلم العميق 
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ملخص 

دف في بحثنا هذا إلى تسليط الضوء على علم معالحة اللغات الطبيعية Natural‏ 
Processing Language‏ أو NLP‏ باعتباره أحد e^‏ مجالات الذكاء الاصطناعي 
«Artificial Intelligence‏ وسنركز بخاصة على استخدام خوارزميات التعلم العميق 
Deep Learning‏ فيه لمحاولة محاكاة نصوص الشاعر العربي نزار قباني. 

ونستعرض في هذا البحث ماهية علم itle‏ اللغات الطبيعية مع إعطاء نبذة 
AU‏ عن نشأته ومراحل تطوره. ثم نعرج على أهم تطبيقات هذا an pe‏ 


الآلية» وتحليل المشاعر "mU‏ وأنظمة الإجابة التلقائية وغيرها. 5 ; نستقصي أهم 
الموضوعات الفرعية المندرجة تحت مبحث معاحة اللغات الطبيعية كتصنيف» وتقطيع» 
وإعراب» وفهم» وتوليد النصوص. 


إضافة إلى ذلك فإننا نشرح أساسيات التعلم العميق وكيفية استخدامه في Jle‏ 
معالجة اللغات الطبيعية. ومن ثم نستعرض كيفية استخدام الشبكات العصبية المتكررة 
Recurrent Neural Networks‏ لتوليد نصوص عربية آلياء حيث نستخدم توليد 
الشعر العربي الحر كدراسة عملية هذا الموضوع» فنشرح ذلك -خطوة خطوة- في 
الفصل الأخير من البحث. 

كا أننا نركز على تبيان الأبحاث والأدوات مفتوحة المصدر معالحة اللغة العربية 
عموماً. وذلك من أجل تعريف القارئ بأهم التقنيات n‏ والطرق 
المستحدثة qe‏ وتمثيل» وتحليل اللغات الطبيعية مع الإشارة di‏ | بعض المراجع 
للحصول على معلومات تفصيلية في كل موضوع. 


Y‏ - باحث مساعد في مركز التعلم الكبير التابع لمؤسسة العلوم الوطنية الأمريكية NSF‏ ومحاضر في أمن وخصوصية تعلم 
الآلة» وطالب دكتوراه في جامعة ميزوري بمدينة كانساس الأمريكية UMKE‏ حصل م. غريبي على درجة الماجستير 
مع مرتبة الشرف الأولى في تخصص هندسة البرمجيات من جامعة ميزوري بمدينة كانساس» وهو ناشط شغوف في 
تطوير وإثراء المحتوى العربي للذكاء الاصطناعي. 
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١‏ — مقدمة 
خلق الله الإنسان وميزه عن باقي مخلوقاته بالعقل» وخلق -سبحانه وتعالی- شعوباً 
وقبائل لكل منها عاداتها وتقاليدها ولغتها التي تميزها عن غيرهاء حيث بينت بعض 
الدراسات الحديثة [1] أن عدد اللغات الطبيعية (لغات البشر) حول العام يتتخطى 
الستة آلاف لغة. ومع التطور التقني المائل في كافة مجحالات وعلوم الحاسب QVI‏ 
والتقنية» ظهر علم معالجة اللغات الطبيعية الذي يسعى لتمكين الحاسب من فهم 
ومعالجة وتحليل اللغات الطبيعية لتسهيل الكثير من المهام إلكترونياً في BE‏ جوانب 

الحياة. 


١‏ التعريف ونبذة تاريخية 

علم معالحة اللغات الطبيعية Natural Language Processing‏ أو NLP‏ هو علم 
تطبيقي يعنى باستخدام تقنيات الحاسب الآلي» وعلى رأسها خوارزميات تعلم الآلة 
“aê «Machine Learning‏ علوم اللغويات Linguistics‏ بحيث يصبح الحاسوب 
قادراً على تمثيل وتحليل وتوليد النصوص المكتوبة والمقروءة باللغات الطبيعية كالعربية 
والإنجليزية. 

ومع التطور الحائل في جميع مجحالات الحاسب الآلي واستخدامه في أتمتة الكثير من 
المهام المتكررة» كفهرسة مواقع الإنترنت والرد على العملاء وتحليل آرائهم» أصبح 
لتقنيات معالحة اللغات الطبيعية دوراً هاماً في الكثير من التطبيقات التى تعتمد على 
فهم اللغات الطبيعية وتفاعل المستخدمين مع الآلة» كمحركات "E‏ والترحمة 
الآلية» والتلخيص الآلي» وأنظمة الإعلانات الذكية» وتصنيف المواضيع» وتنقية البريد 
الإلكتروني من الرسائل الضارةء وتحليل المشاعر وقياس الرأي العام» وتوليد النصوص 
ذات المعنى المترابط والمفهوم. 

يمكننا تتبع تاريخ نشأة علم معالجة اللغات الطبيعية إلى خمسينيات القرن الماضي 
بعد وقت قصير من ظهور الحاسب المعروف باسم [Y] Turing Machine‏ نسبة إلى 


-١‏ الأتمتة (Automation)‏ مصطلح مُعَرَّبٍ يدل على تحويل العمليات التي تتطلب تدخل البشر إلى عمليات آلية لا 
تتطلب تدخل البشر. ونعني بها في هذا السياق تطوير برمجيات آلية لا تتطلب تدخل الخبراء لإتهام المهمة. 
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مصممه العالم الشهير آلن تورينغ» والذي توجه leal‏ إلى إنشاء برمجيات ذكية تحاكي 
ذكاء الإنسان. وبالفعل el‏ في عام ٠10١م‏ باقتراح اختبار تيورنغ [Y] Turing Test‏ 
للحكم على ذكاء الحواسب من خلال قدرتها على الإجابة بلغة طبيعية على الأسئلة دون 
قدرة الحكم على تمييز lel‏ صادرة من حاسب. 

ومع تزايد الاهتمام في معالجة اللغات الطبيعية» ظهرت إحدى أولى تطبيقاتها في 
جامعة جورج تاون لترجمة عبارات بين اللغتين الروسية والإنجليزية die do-t]‏ 
بعد ذلك تطبيقات كأنظمة إجابة الأسئلة [17-5]» وأنظمة تطوير وفهم الحوار [/- 
4 وأدوات تقطيع الكلام وتحديد أصنافه وإعراب الجمل 71[ وتطبيقات 
التلخيص UNI‏ £1[ وأنظمة استرجاع البيانات ]10[ وموخرا ظهرت تطبيقات 
فهم وتحليل المشاعر والآراء والتي تزامن ظهورها مع انتشار مواقع تقييم المتتجات 
والخدمات على الشبكة العنكبوتية I[YV-7 VU GA SD‏ 

وكانت أغلب هذه التطبيقات تعتمد على قوانين تصاغ يدوياً من قبل الباحثين ثم 
تترجم إلى إحدى لغات البرمجة وتعطى للحاسب من أجل تنفيذها. ولكن هذه الطريقة 
كانت تتطلب فههم| عميقا للغة وقواعدها ومعانيها بالإضافة إلى الجهد الكبير لتغطية 
الحالات المختلفة؛ إلى أن ظهرت تقنيات تعلم الآلة في أواسط الثانينات [YA‏ 
حيث تراجعت الطرق اليدوية السابقة لصالح الطرق الإحصائية التي تترك للحاسب 
عملية استنباط وتعلم قوانين اللغة بشكل آلي» وذلك من خلال الاطلاع على كميات 
هائلة من النصوص واستنباط العلاقات المتكررة بينها إحصائياً. وأدت أتمتة هذه الطرق 
إلى تركيز الباحثين على تحويل النصوص إلى صيغ إحصائية تتمثل فيها أهم خصائص 
وأناط اللغة المتكررة. كا $ codo‏ طرق هجينة تعتمد على الطرق اليدوية لعمل أنظمة 
خبيرة ومن ثم تضمينها مع تقنيات تعلم الآلة ما أدى إلى تطور تقنيات معالجة اللغات 
الطبيعية. 


ثم نشطت-مؤخراً- خوارزميات التعلم العميق والتي أثبتت قدرتها على معاجلة 
اللغات الطبيعية بشكل يفوق خوارزميات تعلم الآلة السابقة» le‏ فيها الحجينة» وبدون 
الحاجة لصياغة النص بشكل إحصائي؛ حيث تعتمد هذه الخوارزميات على بناء شبكات 
عصبية اصطناعية Artificial Neural Networks‏ يمكنها استنباط القواعد Ps‏ 
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بشكل آلي وبدقة عالية من خلال الاطلاع على كمية كبيرة من النصوص دون الرجوع 
لقواعد اللغة» كا نبين ذلك في الفصل الثاني. 


٠,۲‏ أهم تطبيقات معالجة اللغات الطبيعية 

قبل التطرق للوظائف”" الرئيسية لعلم ihlas‏ اللغات الطبيعية» نسرد في هذا 
الفصل بعض أهم تطبيقات”" معالجة اللغات الطبيعية وبخاصة تلك التي نرى وجوب 
الاهتمام بها من قبل الباحثين والمبرمجين المهتمين بإثراء معالجة اللغة العربية. 

Machine Translation الترحمة الآلية‎ ١.١ 

لا تخفى أهمية المترجمات الآلية في حياتنا اليومية» إذ هي من أهم -إن لم تكن أهم- 
تطبيقات معالجة اللغات الطبيعية. وكا ذكرنا في مقدمة الباب» فإن ترجمة النصوص 
من اللغة الإنجليزية إلى اللغة الروسية كانت أولى خطوات المجال. ومن الأمثلة الأكثر 
[OPES‏ للمترحمات المستخدمة على الإنترنت محرك Google Translate is jJl‏ من 
شركة قوقل ومحرك Bing iail‏ من شركة مايكروسوفت. وأول ما بدأت» كانت 
خوارزميات الترجمة الآلية تتطلب (ei‏ عميقاً للغات الطبيعية وجهداً eS‏ لتحويلها إلى 
برمجيات حاسب آلي. وفوق ذلك» فقد كانت دقة وفعالية هذه البرمجيات ضعيفة جداً. 
ولكن مع انتشار تعلم الآلة -وخاصة التعلم العميق مؤخراً- أصبحت خوارزميات 
الترجمة الآلية ذات فعالية أكبر وامتدت إلى لغات عديدة» وأصبحت تستفيد من الكم 
ا هائل من النصوص التي يتم إنتاجها بلغات عديدة يومياً على شبكة الإنترنت. وشهدت 
الترجمة من وإلى اللغة العربية مؤخراً bleal‏ واضحاً كالترجمة للإنجليزية [Yo- Y V]‏ 
وللفرنسية [YA- YA]‏ ويمكن الاطلاع على استقصاء للترجمة الآلية من وإلى اللغة 
العربية في ]4 [Y Y-Y‏ 


Y‏ - الوظائف c (Tasks)‏ المهام أو العمليات. فعلى سبيل المثال» عملية إرجاع الكلمة إلى أصلها تعتبر أحد وظائف معالجة 
-Y‏ التطبيقات (Applications)‏ الاستخدامات. فعلى سبيل المغالء تحليل المشاعر والآراء يعد أحد Í‏ تطبيقات 
اللغات الطبيعية. 
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Text Classification تصنيف النصو ص‎ Y, Y , Y 
خوارزميات تصنيف النصوص يمكنها الاطلاع على نص معين وتصنيف محتواه‎ 
إلى موضوعات (كالرياضية» والاقتصادية» والسياسية» وغير ذلك). كثيراً ما يكون‎ 
الشهيرة (المفردة‎ N- grams تحليل النصوص بناءً على خوارزمية «الورودات الأخيرة»‎ 
والمزدوجة والثلاثية) والتي تعتمد بشكل عام على تذكر عدد من الكلمات التي تظهر في‎ 
سياق معين [۳۷-۳۳]. کا تعتمد بعض الخوارزميات الأخرى على استخراج مميزات‎ 
حظي هذا المجال ببعض الاهتمام من قبل الباحثين لتصنيف النصوص العربية‎ 
QNI أو تعلم الآلة [١٤-١٤]ء وكذلك التعرف‎ £V] كاستخدام خوارزميات العد‎ 
(الضوئي) على الحروف [55-55]. ولمن أراد استقصاء الدراسات السابقة لتصنيف‎ 

النصوص العربية الرجوع إلى المرجع ]3[ 

Automatic Summarization التلخيص الآلى‎ ١,” Y 

e‏ عملية التلخيص الآلي بتلخيص النصوص» كنشرات Aet‏ والتقارير 
المطولة» واستنباط خلاصتها بشكل آلي. وتساعد عملية التلخيص الآلي في تسهيل كثير 
من المهام التي تتطلب الاطلاع على خلاصات الكتب والتقارير الطويلة» والبحث عن 
إجابة معينة داخل النص» واختصار الكلام» وتقليل أحجام الملفات النصية مع BUL‏ 
على المعاني والمفاهيم الواردة في النص. 

وعادة مايتم التلخيص JYI‏ بإحدى طريقتين: التلخيص الاقتبابي Extractive‏ 
[£A- £V ] Summarization‏ والتلخيص الخلاصى Abstractive Summarization‏ 
[o Y- £4]‏ فالتلخيص الاقتباسي يعمل على تلخيص النص من خلال اقتباس أهم 
العبارات والمفاهيم الواردة فيه بدون توليد أي نصوص جديدة أو اختزال معانٍ غير 
هامة. وبالتالي OB‏ جميع الجمل الملخصة هي جمل وتعابير موجودة في النص الأصلي تم 
تصنيفها من قبل الخوارزمية على أنها مهمة وتلخص الموضوع بقدر كافٍ. 

أما التلخيص الخلاصي فيعمل على توليد نصوص تختصر محتوى ومعنى النص 
الإجمالي باستخدام نص جديد صحيح لغوياً وإملائياً. وبالطبع فإن التلخيص الخلاصي 
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يحتاج إلى خوارزميات متقدمة تستطيع فهم النص أولاً ومن ثم توليد نص صحيح 
يلخص النص الأسامي. 

وللتلخيص VI‏ في اللغة العربية نصيبٌ من الدراسات التي عملت على محاكاة 
طرق التلخيص في اللغات الأخرى مع الأخذ بعين الاعتبار خصائص اللغة العربية 
وثراتها النحوي [o1-oY]‏ 


Automatic Question Answering الإجابة على الأسئلة‎ NY, ٤ 

تعتبر خدمة الإجابة التلقائية على أسئلة وطلبات الزبائن من أنشط المواضيع في 
Jue‏ معالجة اللغات الطبيعية oV]‏ 047[ وذلك لأهمية هذا المجال في سوق العمل» 
وأسواق الأموال» والتجارة الإلكترونية» وغيرها. حيث إن هذه الخوارزميات يمكنها 
أن تؤدي إلى تطوير برمجيات قادرة على فهم سؤال الزبون» سواءً المكتوب أو المنطوق» 
ومن ثم البحث عن الإجابة الصحيحة وإيصاها إما La‏ أو نطقاً. 

واللافت للنظر في هذا المجال هو جودة وكفاءة عملاء الرد الآلي للغة الإنجليزية 
حيث يصعب التفريق بينهم وبين العملاء البشر في كثير من الأحيان. ويظهر ذلك جلياً 
في خدمات الرد الآلي في المتاجر الإلكترونية ومواقع الحكومات الإلكترونية المتطورة. 

ومن الأنظمة التي طُورت للرد اللي باللغة العربية نظام QARAB‏ ]+7[ والذي 
تم تدريبه على مقالات الصحف العربية وذلك في محاولة لجمع أكبر قدر ممكن من 
المعلومات عن الأحداث» والتواريخ» والشخصيات وغيرها. وشبيه بهذا النظام نظام 
AQUSYS‏ 311[ للرد الآلي على الأسئلة. أما نظام [1Y] AL-Byan‏ فهو نظام تم 
تدريبه على نصوص القرآن الكريم للإجابة على الأسئلة الفقهية والملوضوعات الدينية. 


Sentiment Analysis تحليل المشاعر واكتشاف الآراء‎ 3,Y,o 

مع التوسع التجاري الحائل في جميع المجالات» وانتشار المتتجات والخدمات المتنوعة 
على شبكة الإنترنت» ظهرت الحاجة إلى مواقع وخدمات إلكترونية لتقييم المنتجات 
والخدمات بكافة أنواعها (كالمطاعم» والفنادق» والمدراس» وحتى الدوائر الحكومية). 
وتتيح هذه الخدمات للمستخدمين AUS‏ آرائهم وتجربتهم واقتراحاهم للخدمات 
الموجودة بحيث يستفيد منها الآخرون بلغة حرة. لذاء كان لابد لصناع القرار ومقدمي 
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الخدمات التي يتم تقييمها على شبكة الإنترنت من مراجعة هذه التقييمات والمقترحات 
لتحليلها ودراسة سلوك المستخدمين من أجل تطوير الخدمات وتصحيح أخطائها. وهنا 
تكمن أهمية خوارزميات تحليل المشاعر والآراء» حيث إنه يصعب على صناع القرار تتبع 
جميع cole!‏ بشكل يدوي على شبكة الإنترنت» وعليه فإن هذه الخوارزميات تلعب 
دوراً هاماً جداً في تحليل وتلخيص التقييمات بشكل تلقائي وبسرعة فائقة. 

تعتمد أغلب أنظمة تحليل الآراء على استباط الكلمات والعبارات ذات دلالات 
الإعجاب أو الرفض. مثل «المنتج رائع» أو «الخدمة سيئة». بالإضافة إلى الأخذ بعين 
الاعتبار الرموز Emojis‏ المستخدمة حاليا في شبكات التواصل الاجتماعي لدلالتها على 
الإعجابء أو الحيرة» أو الغضب وغير ذلك. 

وبالطبع» فقد اهتم الكثير من الباحثين بتطوير خوارزميات وبرمجيات لتسهيل تجميع 
وتحليل الآراء باللغة العربية. ومثال ذلك الدراسة DU]‏ والتي اهتمت بتحليل الآراء 
وتقسيم مجموعات النقاش على شبكة الإنترنت حسب آراء المشتركين فيها وتوجهاتهم» 
ونظام [1E] SAMAR‏ لتحليل الآراء في شبكات التواصل الاجتتاعي باللغة العربية» 
ونظام E16]‏ لتحليل آراء مستخدمي الفنادق» والدراسة EV]‏ التي سعت لتحليل 
مشاعر مستخدمي شبكة تويتر للتواصل الاجتماعي. 

بالإضافة إلى ذلك» عمل بعض الباحثين على استقصاء أهم الدراسات والأنظمة 
لتحليل المشاعر والآراء باللغة العربية DV]‏ والتي يمكن الرجوع إليها للمهتمين 
بتطوير هذا المجال. 


Text Generation توليد النخصوص‎ Y, Y ٦ 
طويلة منذ بدايات‎ coU M عملية توليد النصوص شغلت العديد من الباحثين‎ 
ظهور علم معالجة اللغات الطبيعية. وكانت عملية توليد النصوص في بداية الأمر‎ 
بدائية جدا تعتمد على عمليات الإحصاء والاحتالات لإعادة توزيع النصوص المدخلة‎ 
وكانت أغلب هذه الطرق تفتقر لوجود ترابط منطقي‎ [XA A] مسبقاً بشكل مختلف‎ 

ودلالي في النصوص التي تم توليدها من قبل الحاسب الآلي. 


-1۷1- 


هذه الطبعة إهداء من المركز 
ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
n—UuUÓ L|‏ 


ومع التطور الآخير في خوارزميات التعلم العميق» وخاصة خوارزميات الشبكات 
العصبية المتكررة» أصبح مجال توليد النصوص خالا خصبا علميا وعمليا في كثير 
من التطبيقات. حيث إن توليد النصوص يمكن توظيفة في كتابة المقالات وتلخيص 
التقارير وعرض النتائج .]۷۸-۷١[‏ 

وبسبب ثراء اللغة العربية وقواعدهاء يعتبر جال توليد النصوص العربية أحد أصعب 
فروع معالجحة اللغة العربية. ولكن ومع التطور الحالي في مجالات الذكاء الاصطناعي» 
وبخاصة التعلم العميق» أصبحت عملية توليد النصوص ET‏ جهدا بكثير ولا تتطلب 
تعمقا في قواعد اللغة بقدر ما تتطلب من خبرات برمجية لبناء خوارزميات لديها القدرة 
على استنباط قواعد وأناط اللغة بشكل تلقائى. ونود الإشارة هنا إلى أن Jte‏ توليد 
النصوصى dab‏ العريية يعن غا fos Lass‏ للدرانة ولحت الل وق ير 
البرمجيات التطبيقية. l‏ 


Y‏ أهم وظائف معالجحة اللغات الطبيعية 

نسلط الضوء في هذا الفصل على eal‏ وظائف (مهام) معالجة اللغات الطبيعية 
من أجل قثيل» وتقطيع» وتجذيع» وربط الدلالات والمعاني في النصوص وغيرها من 
الوظائف الحامة التي يكثر استخدامها. كما أننا نشير إلى بعض أهم الدراسات والأدوات 
مفتوحة المصدر التى بدف إلى خدمة اللغة العربية في هذه المجالات. ونود توجيه 
القارئ إلى بحث أمجد أبو جبارة «استقصاء تقنيات معالجة اللغات الطبيعية وتطبيقاتها 
في اللغة العربية» ضمن كتاب «الحرف العربي والتقنية» [VA]‏ والذي استقصى فيه 
الباحث أهم وظائف وتطبيقات علم معالجة اللغة العربية بالتفصيل مع الإشارة إلى 
آهم مراجع المجال. 


Orthographic Normalization التسوية الإملائية‎ Y, Y, Y 
وتبتم هذه العميلة بتجهيز النصوص للمعالجة من خلال إزالة الشوائب الكتابية‎ 
والرموز التي لا تؤثر في عملية معالجة النص. فقد لا يكون لعلامات الترقيم أو‎ 
التشكيل أي أهمية في بعض التطبيقات» وعليه يتم إزالتها. ومن الأمثلة الأخرى توحيد‎ 
الأحرف التي يتم الخلط بينها كهمزات الوصل والقطع» والألف المقصورة والياء في‎ 

آخر الكلمة» والتاء المربوطة والحاء في آخر الكلمة» وإزالة التطول. 
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۲ التحليل اللفظي Lexical Analysis‏ 
ويقصد به تقطيع النص إلى أجزائه الأساسية Tokens‏ من الكلمات والحروف 
وعلامات الترقيم مع تبيان بداية وغهاية كل وحدة من هذه الأجزاء .]۸۲-۸١[‏ ونميز 

هنا بين نوعين للتحليل اللفظي: 

C)‏ التحليل اللفظي السطحي: والذي يعمل على تقطيع النص إلى الوحدات التي 
تفصل بينها المسافة البيضاءء ونهاية السطرء Ru s‏ النص» والأرقام» وعلامات الترقيم. 

(۲) والتحليل اللفظي العميق: والذي يعمل على تقطيع النص إلى الأجزاء الأساسية 
للمفردات الناتجة عن تركيب عدة مكونات» كالضائر المتصلة وأل التعريف. 

Part of Speech Tagging تصنيف أقسام الكلام‎ Y, 

ويُعنى هذا الفرع بدراسة وتصنيف أجزاء PASII‏ حسب سياقها الإعرابي» كتصنيف 
الكلمات إلى أسماء (فردية وزوجية وجمع)» أو أفعال (الماضي والحاضر والمستقبل)» أو 
حروف (كحروف العطف والجر)» وغيرها من أقسام الكلام وتصنيفاته. وتكمن 
صعوبة هذه العملية في تصنيف أقسام الكلام بناءً على السياق» فيمكن أن تصنف كلمة 
«سعيد) على كونها اسم أو صفة حسب سياق الكلام. 

Stemming التجذيع‎ PX: 

وهى عملية حذف الزوائد الداخلة على الكلمة لإرجاعها إلى جذعها (أو أقرب 
ما bs‏ إلى oae‏ الكلمة). فكل من المصطلحات التالية argument, arguing‏ 
و argued‏ تمتلك نفس الجذع argu‏ مع ملاحظة أن هذا e‏ ليس كلمة إنجليزية 
صحيحة ولكنه الجذع الأقرب لأساس الكلمة. ولعملية التجذيع أهمية في تطبيقات 
استرجاع البيانات» وفهرستهاء وتجميع النصوص» وكشف النصوص المتشابهة AY]‏ 
[A3‏ ولايزال هذا المجال خصبا للبحث العلمي والتطير في اللغة العربية [۸۹-۸۷]. 


Lemmatization تأصيل الكلمة‎ \,ř,0 
وهى عملية إعادة الكلمة إلى أصلها ولكن بشرط كون الأصل كلمة صحيحة وذلك‎ 
computers على عكس التجذيع الذي لا يشترط كون الجذع صحيحاً. فأصل كلمة‎ 
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يعود إلى compute‏ (أما جذع الكلمة فهو (comput‏ وثمة اختلاف آخر: |3 إن 
التأصيل يمكن أن يرجع كلمة إلى أخرى مختلفة في اللفظ كتأصيل are; is» am‏ إلى 
فعل الكون „be‏ 

وبالإضافة إلى هذه الوظائف المامة لمعالجة اللغات الطبيعية» توجد العديد من 
الوظائف الأخرى التي يستطيع الدارسون الاطلاع عليهاء مثل وظائف التشكيل QAI‏ 
CANA]‏ وتحليل البناء النحوي [A-A]‏ وتحليل علاقات الكلام [AE]‏ وقييز 
أسماء الأعلام ]40[ وغيرها. 

ونود الإشارة هنا أنه بالرغم من وجود مصادر متعددة وأدوات مفتوحة المصدر 
لمعالجة اللغات الطبيعية» إلا أن JU‏ معالجة اللغة العربية لا يزال يفتقر إلى الكثير من 
الأبحاث العلمية والعملية والأدوات مفتوحة المصدر للوصول إلى درجات متقدمة 
USE‏ من تطوير تطبيقات برمجية في cabe‏ المجالات» وبخاصة تلك التطبيقات التي 
تعتمد على خوارزميات الذكاء الاصطناعي المتقدمة. l‏ 


"-التعلم العميق ومعالجة اللغات الطبيعية 

التعلم العميق [4V-43] Deep Learning‏ هو أحد فروع علم تعلم الآلة 
Machine Learning‏ والذي متم بتطوير خوارزميات تكن الحاسب JY‏ من 
«تعلم» أداء المهام الصعبة التي تتطلب Le‏ عميقا للبيانات وطبيعية عملها (كتشخيص 
الأمراض تلقائيا باستخدام الصور الطبية). وما يميز خوارزميات التعلم العميق 
بشكل خاص هو إمكانيتها تعلم المهام بدون برمجة صريحة. ونعني بالبرمجة الصريحة 
هنا استخراج ميزات البيانات Features‏ بشكل يدوي والحكم عليها بقواعد ثابتة. 
فخوار زميات التعلم العميق يمكنها استخراج ميزات البيانات وأنماطها المتكررة بشكل 
تلقائي من خلال الاطلاع على الكثير من البيانات المدخلة ومن ثم تحليلها لإيجاد روابط 
وعلاقات مباشرة أو غير مباشرة بين البيانات المدخلة (كالصور الطبية) والمخرجات 
المطلوبة (كتشخيص المرض). وذلك على عكس خوارزميات تعلم الآلة السابقة التي 
كانت تتطلب cei‏ البيانات وجهداً كبيراً لتحديد ميزاتها وأنماطها بشكل يدوي من قبل 
علماء البيانات. الشكل ١‏ يوضح الاختلاف بين طريقة عمل خوارزميات تعلم الآلة 
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السابقة وخوارزميات التعلم العميق: حيث يوضح الشكل أن خوارزميات تعلم الآلة 
السابقة تتطلب تدخلاً من قبل علماء البيانات ومختصي المجال من أجل استخراج ميزات 
البيانات قبل تمريرها إلى خوارزميات تعلم الآلة» Gl‏ خوارزميات التعلم العميق فتعمل 
ذلك تلقائيا بدون تدخل البشر. 


(ب) طريقة عمل خوارزميات التعلم العميق 
الشكل :)١(‏ مقارنة بين طريقتي عمل خوارزميات تعلم الآلة والتعلم العميق. 
وعلى الرغم من نجاح خوارزميات تعلم الآلة سابقاً في حل الكثير من المشكلات ذات 
البنى البسيطة» إلا أنها لم تكن فعالة في حل المشكلات ذات البنى المعقدة كاللغات الطبيعة 
والمشاهد البصرية والإشارات الصوتية. حيث إن هذه المشكلات تتطلب [e‏ عميقاً 
للبيانات وأنماطها وعمل تحويلات غير خطية عديدة ومعقدة من أجل تحويل البيانات 
بشكلها الطبيعي» كالصورة مثلاء إلى المخرجات المطلوبة» كوصف محتوى الصورة. 


Y, ١‏ كيف تتعلم خوارزميات التعلم العميق 

يكمن جوهر خوارزميات التعلم العميق في إيجاد «الرابط العجيب» ما بين البيانات 
المدخلة كالصور مثلاً والمخرجات المطلوبة كتصنيف محتوى الصور-راجع الشكل 
١‏ الفقرة ب. وعملية «إيجاد الرابط العجيب» تسمى بعملية تدريب (أو تعليم) UYI‏ 
.Machine Training‏ وتتم عملية التدريب من خلال تمرير البيانات المدخلة في عدد 
كبير من الطبقات المتتالية التي تحوي كل منها على عدد من الوحدات العصبونية 
Neurons‏ (أو العصبونات) PM‏ تحويل البيانات المدخلة إلى المخرجات المطلوبة من 
خلال إجراء عمليات رياضية غير خطية عليها. 
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وتشكل مجموعة الطبقات مايعرف بالشبكات العصبية الاصطناعية Artificial‏ 
(Neural Networks‏ لكونها مستوحاة من الشبكات العصبية في دماغ الإنسان. 
وكذلك يطلق عليها مصطلح الشبكات العصبية العميقة 2161770113 Deep Neural‏ 
بسبب عمق الطبقات فيها (كثرة عددها) وعليه تم تسمية مجموعة خوارزميات تعلم 
الآلة التي تعتمد على الشبكات العصبية العميقة بالتعلم العميق. 

وتختلف خوارزميات التعلم العميق باختلاف بنية Architecture‏ الشبكة العصبية» 
والتى ترمز إلى عدد الطبقات» وكيفية ارتباطها مع بعضها البعض» وعدد العصبونات 
في كل طبقة. وبشكل cele‏ يمكن تصنيف طبقات الشبكات العصبية إلى الأنواع التالية 
(انظر الشكل (Y‏ 

* طبقة المدخلات: وهى المسؤولة عن إدخال البيانات إلى الشبكة العصبية. وعدد 

العصبونات في هذه الطبقة مساو لعدد ميزات البيانات المدخلة .Features‏ 

e‏ الطبقات الخفية (أو المخفية) :Hidden Layers‏ وتقع مجموعة الطبقات 
هذه ما بين طبقة المدخلات وطبقة المخرجات» ووظيفتها الأساسية تحويل 
البيانات المدخلة إلى المخرجات المطلوبة. ويتم تحديد عدد هذه الطبقات وعدد 
العصبونات داخل كل منها خلال عملية تدريب الشبكة العصبية. 

* طبقة المخرجات: وهي المسؤولة عن استقبال نتائج الطبقات الخفية وإصدار 
النتيجة النهائية للشبكة العصبية (نتيجة (Prediction £I‏ 


Input layer Output layer 


الشكل (Y)‏ بنية توضيحية للشبكات العصبية المستخدمة في التعلم العميق (من اليسار إلى اليمين) 
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ولا يسمح بنشرها ورقيا أو تداولها تجاريا 
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وعملية تدريب الشبكة العصبية--في حالة التدريب تحت الإشراف-- تتم بخطوتين 
أساسيتين: الانتشار الأمامى Forward Propagation‏ و الانتشار الخلفى Back‏ 
c3J4: .Propagation‏ د التدريب لضبط أوزان الشبكة (والأوزان ھی c pica‏ 
موجودة على روابط الشبكة العصبية تستخدم في حساب نتيجة التنبؤ)» وهي تشمل 
العمليات التالية في كل من عصبونات الطبقات الخفية» كما في الشكل LY‏ 

dw, رس‎ mwah بالأوزان المقابلة‎ (x, x, xs] تضرب كل قيمة من المدخلات‎ )١( 


(Y)‏ وثم 76 نتائج عمليات الضرب اهامر +۰۰۰ + da xw, + XW‏ بعض 
الأحيان يتم إضافة قيمة انحياز معينة D‏ للتحكم في نتائج التنبق 

(Y)‏ تُطبق عملية غير خطية على نتيجة الجمع من أجل كسر العلاقات الخطية 
مابين البيانات المدخلة والمخرجات المطلوبة. وتعتبر عملية ReLU‏ إحدى 
ssi‏ العمليات الغير خطية المستخدمة في الشبكات العصبية. بعد ذلك يتم 
تمرير تلك النتيجة إلى عصبونات الطبقة التالية حيث يتم تكرار هذه العمليات 
الحسابية في كل وحدة عصبية وهكذا حتى طبقة المخرجات حيث يتم استخراج 
القيمة النهائية (نتيجة التنبؤ)» وهنا تتتهي عملية الانتشار الأمامي. 

(E)‏ وبعد إيجاد نتيجة التنبؤ يتم مقارنتها مع النتيجة الصحيحة (حيث إننا أثناء 
عملية التدريب نعرف كل من البيانات المدخلة كالصورة Ss‏ ونتيجتها 
الصحيحة كتصنيف الصورة) بحساب الفرق بين هاتين القيمتين باستخدام 
دالة خسارة معينة Loss Function‏ ثم يتم إعادة ضبط أوزان الشبكة بناء على 
قيمة الخسارة بعملية الانتشار الخلفي Back Propagation‏ من أجل تقليص 
قيمة الخسارة بأكبر قدر ممكن. ويتم تكرار هاتين الخطوتين (الانتشار الأمامي 
وثم ضبط أوزان الشبكة) مرات عديدة حتى يتم الحصول على أقل خسارة 
تمكنة وذلك من خلال إيجاد مجموعة الأوزان المثلى التى يمكن استخدامها 
لتحويل البيانات المدخلة إلى المخرجات المطلوبة بأكبر A s‏ 
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CAA 
٠ 5 أوزان الشبكة‎ 
الشكل ". المبدأ الأساسى لعمل الشبكات العصبية (من اليسار إلى اليمين).‎ 


Y , Y‏ معالجة اللغات الطبيعية باستخدام التعلم العميق 

رغم نجاح الشبكات العصبية في أتمتة الكثير من التطبيقات التي تعتمد على البيانات 
المنفصلة (كتصنيف الأمراض بالاطلاع على صور الأشعة السينية)؛ فإن هذه الشبكات 
تواجه ديا صعبا غند تحليل البيانات اللسلسلة الى تعمد عل ارتباظ وكيق فيا ها 
كالنصوص اللغوية والموجات الصوتية ومقاطع الفيديوء حيث إن il‏ تطبيقات كهذه 
يتطلب فهاً لسياق النص وتسلسله. لذاء ظهر نوع جديد من الشبكات العصبية التي 
تملك وظائف إضافية تمكنها من ربط البيانات المتسلسلة حسب ترتيبها الزمني ومن ثم 
استخدامها في تطبيقات مختلفة كمعالحة اللغات الطبيعية والمشاهد البصرية والأصوات. 
هذا النوع من الشبكات العصبية» والتي تسمى بالشبكات العصبية المتكررة [4A]‏ 
Recurrent Neural Networks‏ تلك روابط تغذية استرجاعية Feedback Loops‏ 
ها من كاف الأنراط Asl‏ فم البيانات Aa AL el‏ 

ولكن حتى مع وجود خوارزميات متخصصة في التعلم من البيانات المتسلسلة, إلا 
أن معالجة اللغات الطبيعية» وبخاصة العربية» لاتزال تواجه العديد من الصعوبات» 
كتحويل النص إلى ترميز معين يمكن إجراء العمليات الحسابية عليه. ونميز فيا بلي بين 
طريقتين لتمثيل اللغات الطبيعية في التعلم العميق: l‏ 

4 ترميز البت الواحد :One-Hot Encoding‏ وقي هذه الطريقة يتم تمثيل كل كلمة 
بمصفوفة سطرية (شعاع سطري) تحوي أصفارا في جميع الخانات ما عدا الخانة التي نمثل 
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تلك الكلمة (والتي يتم اختيارها بشكل عشوائي غير متكرر) حيث يوضع الرقم Y‏ في 
الخانة المقابلة لتلك الكلمة. فعلى سبيل ال مخال» نتيجة تمثيل جملة «أكل الطفل التفاحة» قد 
تتكون من المصفوفات السطرية التالية: 
أكل ]34[ 
الطفل ]۰.1.۰[ 
التفاحة s. M‏ .*[ 
ونلاحظ من الخال السابق أن عدد الأعمدة في المصفوفات السطرية مساو لعدد 
الكلمات في النص. فلو كان لدينا نص يتألف من ألفي كلمة» لكان حجم تمثيل كل 
كلمة هو مصفوفة سطرية تحوي ألفي عمود. وهذا بالتأكيد يؤدي إلى إنتاج مصفوفات 
سطرية ذات حجم ضخم جداً يصعب إجراء العمليات الحسابية عليهاء بغض النظر أن 
غلب عناصر المصفوفة تحوي أصفارا. 
كما نلاحظ عدم ارتباط معنى الكلمات مع تمثيلها. فعلى سبيل المثال» كلمة «طبيب» 
يمكن أن JË‏ ب 
(Ga. snis]‏ كلمة «دكتور» يمكن أن قُفل ب[ ١١.‏ ] رهم 
احتمال قرمها في المعنى. وهذا بالطبع يفقد تحليل النص أهمية كبيرة في فهم وربط المعاني 
والجمل والتسلسل المنطقي والدلالات اللفظية وربط الضمائر وغيرها. 
Co‏ تضمين الكلمات :Word Embeddings‏ وهذه الطريقة تعتمد على HE‏ 
الكلمات باستخدام مصفوفات سطرية مع تضمين العلاقات بين الكلمات المستخدمة 
3. ويتم إنشاء هذه المصفوفات السطرية لتمثيل الكلمات من خلال تدريبها على 
شبكات عصبية بسيطة البنية. فعلى سبيل (JU‏ يتم تدريب شبكة عصبية على التنبؤ 
بالكلمة الناقصة في العبارة التالية «أكل الطفل .... الناضجة». وبالاعتاد على التدريب 
باستخدام نصوص وفيرة ا معاني ذات عبارات مشابهة» MS Op‏ من كلمتي «التفاحة» 
و»البرتقالة» سوف تمثل احتمالاً عالياً مى الفراغ في الجملة السابقة. وهذا يعني أيضا 
وجود ارتباط وتشابه بين هاتين الكلمتين (وبالفعل إن الكلمتين متشابهتين في كونه| 
فواكه). وعليه فإن المصفوفات السطرية التي تمثل AS‏ من كلمتي التفاحة والبرتقالة 
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سوف تحتوي على قيمة رقمية تبين نسبة التشابه والترابط بين الكلمتين. ومن فوائد هذه 
الطريقة هو تجميع الكلمات ذات المعاني المتشابهة في مجموعات قريبة لبعضها البعض 
داخل مصفوفات التمثيل. وهذه العلاقات التي يتم تشكيلها بين الكلمات المتشامة 
علاقات خطية يمكن تتبعها بسهولة وإجراء العمليات الحسابية عليها. فإذا انطلقنا 
من مصفوفة التمثيل للمصفوفة السطرية لكلمة «ملك» -مثلاً- ثم تحركنا باتجاه قيمة 
مشاءهة eL V‏ وقيمة المسافة بين كلمتى «رجل») و«امرأة» لوصلنا إلى كلمة SD‏ 
وهذا يعنى أن كلمتى «ملك» TE?‏ تتواجدان في فضاء رياضى قريب لبعضها 
البعض 9 اتجاه Lr‏ لكلمتى «ملكة» و«امرأة». كما أننا PW ET‏ المصفوفة 
البطرية لكلمة رجل هن كتملك يكرت الات هر الصفرة السسطرية لكلمة ماك 
ا 

بعد أن تعرفنا على ماهية التعلم العميق وعلى بعض إمكانيات Jle‏ تحليل ومعالحة 
اللغات الطبيعية والنصوص المتسلسلة باستخدام الشبكات العصبية المتكررة وعلى 
بعض طرق تمثيل اللغات الطبيعية» نشرح في الفصل QUIT‏ دراسة عملية عن توليد نص 
شعري عربي حر باستخدام التعلم العميق. 
۳- شاعر بلا مشاعر: تجربة في توليد الشعر العربي 

نستعرض في هذا الفصل تجربتنا الفريدة في إنشاء الشعر العربي الحر باستخدام 
خواززميات التعلم العميق لتوليد النصوص. حيث إننا عملنا على تطوير شاعر 
إلكتروني» أسميناه «شاعر بلا مشاعر» (لأسباب واضحة) [Nee]‏ يقوم بتوليد 
نصوص عربية محاكية لأشعار الشاعر الدمشقي نزار قباني (ننشر كثيرا منها كتغريدات 
في شبكة التواصل الاجتماعي «تويتر»). 

نهدف في هذا الفصل إلى تعريف القارئ بالخطوات والمهام اللازمة لتكرار وتطوير 
هذه الدراسة (كما آنا نوفر المصدر المفتوح هذا الخوارزمية على الرابط التالي 11 (Ey‏ 
ونشجع على تطوير أدوات أخرى تعمل على توليد النصوص العربية في مجالات iabe‏ 
وذلك أن الخوارزمية المستخدمة مفتوحة المصدر (Open Source)‏ ويمكن إعادة 
استخدامها مجاناً في أكثر من مجال كتوليد الروايات» أو المواضيع التقنية» أو حتى تطوير 
أنظمة للرد التلقائي على رسائل البريد الإلكتروني. 
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Y, Y‏ تجميع وتبيتة البيانات 
عملية تجميع وتجهيز البيانات واحدة من أصعب وأطول مراحل بناء gòl‏ تعلم 
الآلة» إذ يصعب الوصول إلى بيانات جيدة ومفتوحة المصدر لاستخدامها في تدريب 
هذه الخوارزميات. كا أنه -حتى مع وجود بيانات مفتوحة المصدر- لا بد من بذل 
الوقت والجهد في تبيئة البيانات لتكون صالحة للاستخدام من قبل خوارزميات التعلم 
العميق» كعمليات تنظيف البيانات» وتمثيلها (تحويلها من نصوص إلى أرقام)» وتعبئة 
البيانات الناقصة» وغيرها من الخطوات اللازمة قبل البدء في عملية التدريب. 
وقمنا بتجميع البيانات اللازمة (أشعار نزار قباني) في تجربتنا هذه بالطريقتين 
التاليتين: 
* من خلال استخدام محرك البحث جوجل. واعتمدنا هنا على البحث عن gos‏ 
تحوي أشعاراً لنزار قباني ثم قمنا بنسخ ولصق هذا الأشعار داخل ملفات نصية 
-بعد التأكد من صلاحية حقوق النشر هذه الأبيات الشعرية. 
* من خلال استخدام شبكة توتير للتواصل الاجتماعي. حيث عملنا على تطوير 
برنامج بلغة «بايثون» ليقوم بالبحث التلقائي عن تغريدات شعرية لنزار قباني 
Y]‏ وتحميلها ني الملف النصي. 
وبعد أن تكونت لدينا مجموعة مناسبة من النصوص «الأبيات الشعرية) لعملية 
التدريب» عملنا على استخدام وظائف معالجة اللغات الطبيعية التي ذكرناها في الفصل 
السابق للتنسيق» والتسوية الإملائية» وإزالة الشوائب من النصوص. وبشكل خاص» 
عملنا على التأكد من خلو النصوص من الكلمات الإنجليزية» والرموز التعبيرية, 
والدوال التصنيفية Hy (Hashtag)‏ لعدم أهمية هذه الأجزاء في تدريب الآلة Ulo‏ 
تعتبر شوائب يجب إزالتها. ونوضح عمليات تجيهز النص في الخوارزمية١‏ . 
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Algorithm: PreprocessText(text) 
words = split text by space(text) 
for word in words: 
if word.startWith(^?) | | word.isEnglish() | | word.isEmoji(): 
remove word 
end if 
word.removeExtras() // إزالة الشواتب النصية كالتطويل‎ 
end for 


return words 


90 Uy JUT de OM d 


الخوارزمية .١‏ توضيح مبسط خوار زمية تجهيز النص 

وبعد إزالة الشوائب من النصء كان لا بد من إيجاد طريقة مناسبة لتمثيل النص. 
وعلى الرغم من وجود العديد من الطرق لتمثيل النصوص» كما شرحنا BU‏ إلا 
Ul‏ اعتمدنا في تجربتنا هذه على تحويل كل حرف ورمز من النص إلى رقم عشري محدد 
لتسهيل عملية التدريب. وقمنا بعمل ذلك من خلال إنشاء شعاع (مصفوفة سطرية) 
من ا حروف والرموز الفريدة في النص وإعطاء كل منها رقم معين عشوائي بحسب أول 
ظهور له في النصوصء وبلغ طول الشعاع EY‏ للحروف وعلامات الترقيم والتشكيل. 

ولتسريع عملية التدريب» قمنا بتحويل هذه الأرقام إلى أرقام كسرية ما بين الصفر 
والواحد» وذلك OM‏ عملية التعلم تتم من خلال ضرب هذه الأرقام بأوزان الشبكة 
ومن ثم تطبق التحويلات الغير خطية عليها (راجع الشكل (Y‏ وتحويل الأرقام 
العشرية إلى كسرية يصغر قيم النتائج فيسرع عمليات الضرب وبالتالي يقلص الوقت 
اللازم لتدريب الشبكة العصبية. 


Y‏ و" اختيار وحدة النموذج 

بعد تجهيز البيانات» واجهنا الحاجة للاختيار بين طريقتين مختلفتين لتدريب 
النموذج: إما تدريب النموذج ككلات متتالية أو كحروف متتالية. فتدريب النموذج 
على الكلمات -بدلا من الحروف- يتفوق في توليد نصوص ذات معنى مترابط» حيث 
إن النصوص المولدة ستحوي كلمات صحيحة دائاً» كما أن وقت التدريب أقل بكثير 
مقارنة بتدريب النموذج على الحروف؛ ذلك OM‏ تدريب النموذج على الكلمات يعني 
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أن النموذج على دراية سابقة بالكلمات ls‏ بهدف لاستنباط سياق الكلام وقواعده 
وكيفية توزيع الكللات. 
Ul‏ تدريب النموذج على الحروف فيحتاج لوقت أطول ولشبكات عصبية ذات 
بنى عميقة جداً وذلك لأن الشبكة العصبية تحتاج لتعلم إنشاء الكلمات من الحروف 
والقواعد الإملائية أولا قبل تعلم استنباط سياق الكلام وكيفة توزيع الكلمات. ولقد 
اخترنا توليد النصوص حرفاً حرفاً في تجربتنا هذه لسببين أساسين: 
e‏ أننا أردنا أن نختبر إمكانية تدريب النموذج على عملية توليد النصوص مع 
علامات التشكيل. حيث أن بعض الأشعار التى استخدمناها في عملية 
ca adl‏ كانه alta‏ وبالتاق 0 lae‏ تريب ci pel‏ حرفا m‏ موت 
تضمن تدريب النموذج على علامات التشكيل باعتبارها حروفاً. 
e‏ أننا أردنا-فعلاً- إبراز قدرة الشبكات العصبية على تعلم توليد كلمات عربية 
صحيحة ذات معنى ودلالات مترابطة من الحروف. بدلا من إعادة إنشاء 
كلمات موجودة مسبقاً داخل النص المستخدم في عملية التدريب. 


۳ تدريب النموذج 

الخطوة التالية تمثلت في تقسيم النص إلى أقسام متسلسلة موحدة الطول لتغذيتها 
في نموذج التعلم العميق» حيث قررنا استخدام سلاسل نصية مكونة من ٠٠١‏ حرف 
لتغذي النظام بشكل دوري أثناء عملية التدريب (وذلك لأن هدفنا كان إنشاء شاعر 
آلي يقوم بتغريد الأشعار -أو مايشابه الأشعار- على شبكة تويتر » كا أن هذا الطول 
مناسب لتدريب الشبكات العصبية بناءً على الحروف عموماً). وأخيراًء قمنا بتمثيل 
النص بطريقة One-Hot Encoding‏ التي شر حناها سابقاً. 


ولتوضيح عملية التدريب» فإننا نزود النظام بمئة حرف في كل دورة وندع له التنبؤ 
بالحرف التالي حتى يتم تدريب الخوارزمية على كافة النص» ونقوم بتكرار هذا العملية 
على النص كاملا col‏ عديدة حتى تزداد كفاءة التنبؤ في النموذج. وعليه يمكننا اعتبار 
عملية تدريب الشبكات العصبية على توليد النصوص leb‏ عملية تدريب النموذج على 
التنبؤ بالحرف التالي في سلسلة نص معينة. 
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فعلى سبيل المثال» إذا عملنا على تقسم النص إلى متسلسلة ذات طول أربعة حروف 
في العبارة التالية (سبحان الله»» فإن خطوتي التدريب والتنبؤ سوف تعملان على الشكل 


التالي: 

خطوة التدريب خطوة التنبؤ 
س بحا o‏ 
بح o!‏ (مسافة) 

| ان (مسافة)‎ c 

ا ن(مسافة)ا J‏ 

ن (مسافة) ال J‏ 

(GIL)‏ ا لل 


٣, ٤‏ اختيار بنية النموذج 
من أجل توليد النصوص باستخدام التعلم العميق» يمكن استخدام الشبكات 
العصبية Sl‏ رة Recurrent Neural Network‏ وبشكل Long Short- i5 « ,2U-‏ 
Term Memory‏ لفعاليتها المعروفة في تحليل البيانات المتسلسلة. واعتمدنا في إنشاء 
شبكتنا العصبية على البنية التالية: 
* طبقة المدخلات: وتحوي ٠٠١‏ وحدة عصبونية مهمتها إدخال السلاسل النصية 
التي قمنها بتجهيزها سابقاً ومن ثم تمريرها إلى الطبقة الخفية الأولى. 
* طبقتان خفيتان: الأولى تحوي 707 وحدة عصبونية» والثانية تحوي VYA‏ وحدة 
عصبونية (نصف الأولى). 
* طبقة المخرجات والتى تستقبل بيانات الطبقات الخفية السابقة وتحوها إلى 
الشلكة العصية: 
واختيارنا هذه البنية كان بعد العديد من التجارب» حيث لا توجد -حتى الآن- 
يقة علمية معتمدة لاختيار البنى المثلى لشبكات التعلم العميق بسبب عدم معرفة 
كيفية توزيع الأوزان داخل الطبقات الخفية كا ذكرنا سابقاً. فعملية إيجاد البنية LL‏ 
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للشبكات العصبية (عدد الطبقات الخفية والعصبونات في كل منها) هى عملية بحث 
تتم من خلال المحاولة والتكرار ومراقبة الأخطاء والتعلم منها. 


٥‏ ,۳ تدريب وتقييم النموذج 

بعد تطوير بنية نموذج التعلم العميق وتجهيز النص لاستخدامه في عملية التدريب» 
قمنا بالبدء الفعلي بعملية تدريب النموذج على توليد النصوص. حيث بدأت الشبكة 
العصبية بتوليد نصوص مقروءة بعد الكرّة (أو الدورة) Epoch‏ العشرين (والكرّة 
هى عملية التدريب الواحدة على كافة النص الموجود). وأكملنا عملية التدريب حتى 
الدورة الخمسين حيث بدأت الشبكة العصبية بتوليد نصوص ذات نتائج عالية الدقة 
وصلت حتى AY‏ وهى نتيجة مقبولة جدأ لو أخذنا بساطة البئية المستخدمة وعمليتى 
التدريب وتهيئة البيانات بالإضافة إلى حجم نص التدريب لدينا بعين الاعتبار مقارنة 
بطرق توليد النصوص التقليدية. 


٤‏ - النتائج 
نوضح في الشكل ‏ أمثلة من التغريدات الشعرية التي تم توليدها ونشرها بواسطة 
شاعر بلا مشاعر. ونلاحظ من خلال هذه الأمثلة أن بعض الكلمات تحوي AKS‏ 
وذلك لأن بيانات التدريب كانت تحوي التشكيل أيضاً. كما نلاحظ أن معظم التغريدات 
تحوي شطراً شعرياً واحداً وذلك لأننا قمنا بتدريب النموذج على متسلسلات نصية 
بطول ٠٠١‏ حرف. ويمكن تعديل ذلك بكل سهولة لإنشاء الشطور الشعرية بأشكال 
مختلفة» ولكننا اقتصرنا على الشعر الحر هنا للسهولة ومناسبة منصة التواصل الاجتماعى 
Eê,‏ فاقيا راكد انامض legel‏ كرات خرن 
مناسبة أو لا معنى ها (ككلمة «المسرا» في التغريدة الأخيرة في الشكل > مثلا)» liag‏ 
متوقع حيث إن النموذج تم تدريبه على الحروف لا الكلمات. 
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الشكل (4): بعض الأمثلة للنصوص التي تم توليدها 
وقد لا قت هذه الأداة إعجاب بعض مستخدمي موقع التواصل تويتر وحصلت 
على ٠١۳‏ متابع» بمعدل Y‏ إعجابات لكل تغريدة حتى تاريخ كتابة هذا البحث. وندعو 
المهتم إلى الاطلاع على هذه الأداة ]٠١١[‏ تحت اسم المستخدم ()AT Sha3er‏ وإنشاء 
أدوات مشابهة كتوليد القصص والروايات. 
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ه-الخاتمة 

قدمنا في بحثنا هذا لمحة مبسطة عن معالجة اللغات الطبيعية» واستعرضنا أهم 
تطبيقاتها الحالية في مجالات عدة» كا عرّفنا بهم الوظائف التي ينبغي eT‏ بها للمهتم 
في المجال وكيفية تطبيقها على النصوص للمساعدة في تجميع وتمثيل وتحليل النصوص 
المكتوبة والمنطوقة. ورّكزنا في هذا البحث على التعلم العميق في توليد اللغات الطبيعية. 
ففصلنا Yoi‏ ماهية التعلم العميق وكيفية عمله» ثم عرضنا تجربتنا العملية» خطوة 
بخطوة: في توليد الشعر العربي باستخدام خوارزميات التعلم العميق. 

إن اللغة العربية ثرية بالدلالات اللفظية والقواعد الصرفية والنحوية والتي تجعلها 
واحدة من أروع اللغات على الإطلاق. لذاء فلا بد من التشجيع على الخوض في مجال 
معالجة اللغات الطبيعية--وبخاصة للغة العربية--خصوصا مع تطور خوارزميات 
التعلم العميق التي تسهل معالجة اللغات الطبيعية وتطبيقاتها. 


—YAV- 
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تطبيقات الذكاء الاصطناعي 
في خدمة اللغة العربية 


يُصدر مركز الملك عبداللّه بن عبدالعزيز الدولي لخدمة اللغة العربية هذا الكتاب ضمن سلسلة 
(مباحث لغوية)؛ وذلك وفق خطة عمل مقسمة إلى مراحل؛ لموضوعات علمية رأى المركز حاجة المكتبة 
اللغوية العربية إليهاء أو إلى بدء النشاط البحثي فيهاء واجتهد ب2 استكتاب تخبة من المحررين والمؤلفين 
للنهوطن بعنوانات هذه السلسلة على أكمل وجه. 

ويهدف المركز من وراء ذلك إلى تنشيط العمل 2 المجالات التي LS‏ إليها هذه السلسلةء سواء أكان 
العمل علميا بحثياء أم عمليا تنفيذياء ويدعو المركز الباحثين كافة من أنحاء العالم إلى المساهمة 2 هذه 
السلسلة. 

وتودٌ الأمانة العامة أن تشيد بجهد السادة المؤلفين؛ وجهد محرر الكتاب» على ما تفضلوا به من رؤى 
وأفكار لخدمة العربية 2 هذا السياق البحثي. 

والشكر والتقدير الوافر لمعالي وزير التعليم المشرف العام على المركزء الذي يحث على كل ما من 
شأنه تثبيت الهوية اللغوية العربية؛ وتمتينهاء وفق رؤية استشرافية محققة لتوجيهات قيادتنا الحكيمة. 

والدعوة موجّهة إلى جميع المختصين والمهتمين للتواصل مع المركز؛ لبناء المشروعات العلمية؛ وتكثيف 


الجهود. والتكامل نحو تمكين لغتنا العرييةء وتحقيق وجودها السامى 4 مجالات الحياة. 


الأمين العام للمركز 


د. عبدالله بن صالح الوشمي 


9 MI A 
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